본문 바로가기
빅데이터 학습자료/01. 빅데이터분석기사

r 패키지 설치방법, r패키지 종류, ggplot2, r시각화 패키지, r 변수, r studio, r 프로그래밍, r 공부하기, 빅데이터 r, r 함수, r 패키지, 빅데이터분석기사, r 변수명생성규칙, ggplot2패키지, qplot

by OBIG 2020. 9. 2.

안녕하세요. :-) 빅데이터리더 김민지입니다.

지난시간에는, 변수와 상수 그리고 변수명 생성 규칙, 변수 생성 실습까지 진행을 했습니다.

 

2020/09/01 - [BIGDATA/누구나 할 수 있는 R 데이터 분석] - 변수와상수, r 변수, r studio, r 프로그래밍, r 변수명생성, r 공부하기, 빅데이터 r, r 함수, r 패키지, 빅데이터분석기사

 

 

 

오늘은 드디어! R프로그래밍의 핵심인 함수와 패키지에 대해서 알아보고, 패키지의 종류, 필요한 패키지 찾는법에 대해 알아보도록 하겠습니다.

 


함수와 패키지

 

함수와 패키지는 데이터를 분석하는 데 꼭 필요한 요소이자 잘 알아두어야 할 요소입니다.

아무리 유능한 데이터과학자일지라도 수 많은 데이터를 하나하나 분석할 수는 없기 때문에 함수와 패키지를 잘 활용하면 할수록 그만큼 데이터 분석이 수월해집니다.

 

, 데이터 분석 공부는 함수들의 기능과 조작 방법을 익히는 과정이라고도 할 수 있습니다.

본 책에 제시된 함수와 패키지 정도는 정확하게 숙지하고 가면 좋습니다.

 

 

1. 함수란?

 

함수는 무엇일까요? 중학생, 고등학생 시절 많은 함수 공식을 외웠던 기억이 있으실 겁니다.

학창시절처럼, 어려운 함수를 전부 외워야 할 필요는 없으니 걱정하지 않으셔도 됩니다.

 

간단하게 생각하면, 함수는 원하는 것을 만들어주는 상자라고 할 수 있습니다.

만약 우리가 숫자를 넣기만 하면 더해주는 더하기 상자를 만들었다고 예를 들어봅시다.

상자 안에는 [변수(x) + 변수(y)]의 공식이 있고,

여러분이 이 상자에 x=2, y=3의 값을 넣으면 상자 밖으로는 2+3의 결과 값인 5가 나오게 됩니다.

 

마치 밀가루를 빵 만드는 기계에 넣으면 빵이 나오는 것처럼 이해하시면 됩니다.

 

 

이처럼 연산을 통해 특정 값을 도출하는 함수 이외에도 변수를 변형하거나 그래프를 그리는 등 다양한 기능을 하는 함수들도 있습니다.

 

함수의 종류는 무궁무진하고 함수를 얼마나 잘 활용하느냐에 따라서 데이터 분석의 효율성이 달라지므로 커뮤니티 및 공부를 통해서 다양한 함수를 접해보는 것이 중요합니다.

 

간단한 예시를 통해 직접 R 스튜디오에서 함수를 연습해 봅시다.

 

변수 x c()를 이용하여 5개의 숫자를 넣어보겠습니다.

 

 

 

 

이 변수 x의 평균과 최댓값, 최솟값을 함수를 통해 연산해보겠습니다.

 

 

 

 

mean() 함수는 우리가 일반적으로 알고 있는 산술평균 값을 구해주는 함수이며, max()는 변수 x가 가지고 있는 숫자 중에서 최댓값을 구해줍니다. min()은 반대로 최솟값을 구해줍니다.

 

이처럼 함수는 편리하게 데이터 분석이 가능하도록 도와주는 역할을 합니다.

 


2. 패키지란?

 

위에서 언급한 것처럼, 데이터 분석을 수월하게 하려면 원시 데이터를 가공하거나 결과를 시각화 하는 등 다양한 기능을 가진 함수가 필요합니다. 그렇다고 모든 함수를 직접 만들어 사용하기에는 시간과 노력이 너무 많이 듭니다.

 

하지만 R의 가장 큰 장점은 다양한 패키지들이 존재한다는 것입니다.

전 세계 사람들이 다양한 기능을 가지고 있는 패키지를 만들어 무료로 배포하고 있습니다.

 

예를 들어 그래프를 그릴 때는 qplot() 함수를 많이 사용하는데, 이 함수는 ggplot2라는 패키지에 포함되어 있습니다.

이처럼 원하는 기능의 함수를 사용하려면 우선 어떤 패키지가 있고 사용하려는 함수가 어느 패키지에 포함되어 있는지 파악해야 합니다

 

 

필요한 패키지를 찾는 방법에 대해서 알아보도록 하겠습니다.

 

 


3. 필요한 패키지 찾기

 

R의 패키지는 모두 CRAN 웹 사이트에서 확인할 수 있습니다.

CRAN웹 사이트에는 다음과 같이 패키지 목록을 정리한 페이지가 있습니다.

이 페이지에는 현재 R에서 사용할 수 있는 거의 모든 패키지가 알파벳순으로 정리되어 있어 알파벳 링크를 클릭하면

선택한 알파벳으로 시작하는 패키지 목록으로 빠르게 이동할 수 있습니다.

 

 

 

 

 

*Tip:바로가기 링크

https://cran.r-project.org/web/packages/available_packages_by_name.html

 

사용할 패키지명을 알고 있다면 이 방법으로 쉽게 찾을 수 있으며, 패키지명을 클릭하면 상세

한 사용 방법과 버전등의 정보도 확인할 수 있습니다. 예를 들어 그래프를 만들 때 가장 많이 사

용하는 패키지인 ggplot2을 클릭해봅니다.

 

 

 

 

 

 

 

 

선택한 패키지의 상세 정보 페이지에는 해당 패키지의 현재 버전(Version), 만든 사람(Author),

포 날짜(Published) 등 패키지의 세부 정보가 나타납니다. Reference Manual에 있는 링크를 클릭

하여 패키지 사용법이 정리된 pdf 파일을 다운로드할 수도 있습니다.

 

 


4. 기능에 따른 패키지 분류

 

앞에서 소개한 방법은 사용할 패키지를 알고 있고 구체적인 정보가 필요할 때 활용할 수 있는 방법 입니다.

하지만 어떤 특정 기능을 사용 해야 하는데 어떤 패키지를 써야 할지 모를 수도 있습니다.

 

이럴때는 어떻게 해야 할까요?

 

CRAN 웹 사이트에는 분야별로 패키지를 정리해 놓은 페이지를 확인하면 됩니다.

 

 

 

*Tip:바로가기링크

https://cran.r-project.org/web/views/

 

Topics 목록에서 분야를 선택한 후 상세 페이지에서 사용할 패키지를 확인하면 됩니다.

예를 들어 그래프를 통해 최종 시각화를 표현하기 위해서는 분야별 페이지에서 [Graphics] 링크를

클릭하여 그래프 관련 패키지 목록을 확인합니다.

 

 


R 스튜디오는 참 세련되고 친절한 도구입니다. 다음에는 패키지를 설치하고 로드하는 방법과 컴퓨터 간 동일한 패키지 환경을 만드는 방법에 대해서 배워보도록 하겠습니다. 모두들 빅데이터전문가가 되길 바라면서! 마무리하겠습니다.

 

-끝