본문 바로가기
빅데이터 학습자료/01. 빅데이터분석기사

빅데이터와 R, R언어, 빅데이터 분석, R프로그래밍, 파이썬, R과파이썬

by OBIG 2020. 6. 15.

안녕하세요 :) 김민지입니다.

 

빅데이터에 대한 관심이 늘어나면서, 데이터 분석을 용이하게 할 수 있는 R언어에 대한 관심도 함께 급증하고 있는데요.

저도 데이터 분석을 처음 배웠을 때 상대적으로 쉽게 접근할 수 있었던 것이 R이었습니다. 파이썬도 좋지만, 프로그래밍에 대한 부담이 있으신 분들은 R부터 시작하는 것을 더 추천드려요.

 

특히 데이터 분야로 직종을 고려하시는 분들은, 데이터의 이론적 개념에 대한 이해와 자격증 획득도 중요하지만 실제로 데이터를 다뤄보고, 간단한 데이터라도 데이터 분석의 전 과정 (수집, 전처리, 분석, 결론)을 경험해보시는 것이 훨씬 도움이 되실거에요.

 

이런 분들에게 추천합니다.

- 데이터 분석 과정을 실습해보고 싶으신 분

- R언어에 대해 관심이 있으신 분

- 스펙을 쌓기 위해서 자신만의 포트폴리오가 필요하신 분

 

아주 기초적인 부분부터, 추후 실제 오픈데이터를 활용해서 다양한 분석 보고서를 만들 수 있는 정도까지 과정을 진행할 예정입니다.

 

오늘은 일단 아래와 같이 진행하겠습니다.

 

-빅데이터 정의와 R과의 연관성

-R이란?

 


1. 빅데이터와 R

 

진정한 데이터는 사실이 기록된 정보’라고 할 수 있습니다. 만약 데이터가 잘못된 사실이 기록된 것이라면 그 데이터의 활용도 무의미하고 때론 위험한 결과를 낳을 수도 있습니다.

그럼 정확하게 빅데이터라는건 무엇일까요? 단순히 데이터의 양이 많아 진 것을 빅데이터라고 할 수 는 없습니다. 빅데이터는 IT 기술이 발전하면서 기존에 처리하던 데이터와는 비교할 수 없을 정도로 많은 양의 정보를 처리하는 것은 물론, 단순히 사실의 기록이 아닌, 데이터를 기반으로 문제를 해결하고 미래를 예측하는 종합적인 의미를 포함하는 개념입니다.

 

미국의 유명 IT 컨설팅 업체인 가트너(Gartner Inc.)는 빅데이터를 3V라고 정의 내렸습니다.

 

  • High-Volume(대용량): 데이터의 크기가 테라바이트(TB) 혹은 페타바이트(PB)에 이르기까지 많은 양의 데이터를 의미합니다. 이 많은 데이터를 활용하려면 일단 저장을 해둬야 하는데, 기존에는 하드디스크의 가격이 비싸 저장의 한계가 있었지만 하드웨어의 성능이 좋아지고 가격은 내려가면서 많은 양의 데이터를 저장하는 것이 가능해졌습니다.

  • High-Velocity(고가용성): 데이터가 만들어지고, 활용되는 속도의 발전을 의미합니다. 예를 들어, 새로 개업한 식당이나 기업의 신제품 반응이 실시간 SNS를 통해 정보가 공유되는 것을 생각 해보면 됩니다. 또한, 넷플릭스, 유튜브와 같은 많은 동영상도 길거리를 걸어 다니면서 볼 수 있습니다. 이는 통신기술이 발전함에 따라 데이터의 생성, 수집, 활용도 함께 발전한 것입니다.

  • High-Variety(다양성): 데이터의 다양성은 단순히 데이터의 종류뿐만 아니라 가치와 활용에 있어서도 다양해진 것을 의미합니다. 기존에는 엑셀과 같이 텍스트로 정리된 정형화된 데이터만을 다루고, 사후 대처에 초점을 맞췄다면 현재는 이미지, 영상, 댓글, SNS, 고객 행동 등 반정형, 비정형 데이터 등 다양한 데이터 종류를 활용해 문제를 해결하고 미래를 예측하는 것에 초점을 맞추고 있습니다.

 

위에서 제시된 3V외에도, 데이터를 통해 수 많은 비즈니스 모델이 생겨나고 국가와 기업의 흥망을 좌지우지할 수 있다는 점에서 High-Value를 포함한 4V로 정의 내리기도 합니다.

 

그럼 빅데이터와 R은 어떤 연관성을 가지고 있을까요?

 

R은 데이터 분석에 특화된 프로그래밍 언어입니다. 전문적인 데이터 사이언티스트들뿐만 아니라 이제 막 데이터 분석 공부를 시작한 입문자들도 모두 사용할 수 있으며, 수많은 데이터 분석도구들 사이에서도 주목을 받고 있습니다.

이 이유에 대해서는 뒤에서 언급하도록 하겠습니다.

 

 


2. R이란?

 

R은 위에서 언급한 바와 같이 데이터 분석에 특화된 도구입니다. 일부 통계학자만 사용했던 언어에서, 빅데이터가 각광을 받은 후 구글, 페이스북, 아마존 등에서 데이터 기본 분석 플랫폼으로 사용되면서 많은 사람들에게 주목을 받게 되었습니다.

 

그렇다면 왜 수 많은 기업들이 R을 선택했을까요? R의 가장 큰 장점은 다양성입니다. R은 범용 분석 툴이기 때문에 어떤 형태의 데이터든 자유롭게 분석할 수 있습니다.

 

R의 장점

 

 

  • R은 무료로 사용할 수 있는 오픈소스입니다. 기업에서 오랫동안 사용해왔던 SAS, SPSS와 같은 데이터 분석 도구들은 많게는 수천만 원의 비용이 들고 일반 사람들에게는 알 수도 없는 낯선 도구입니다. , R은 데이터 분석의 진입장벽을 낮춰 많은 사람들이 자유롭게 사용할 수 있도록 하였습니다. 또한 오픈소스이기 때문에 전 세계 사용자들이 다양한 기능과 패키지를 만들어 사이트에 공유하고 있습니다. 한 해에 수천 개가 넘는 패키지가 새롭게 업로드 되고 있고 필요하다면 어렵지 않게 다운받아 사용할 수 있습니다.
  • R 사용자들이 패키지를 만들어 공유하는 사이트인 CRAN(cran.r-project.org) 외에도 Github,FTP, 아래와 같은 사용자 커뮤니티가 활성화되어 있어 독학으로 하기에도 큰 무리가 없습니다.

 

  • R은 프로그래밍에 익숙하지 않은 사용자라도 R스튜디오라는 IDE를 활용하여 직관적인 인터페이스, 간단한 문법, 패키지를 통해 충분히 데이터 분석에 입문할 수 있습니다. 이처럼 입문자도 쉽게 다가갈 수 있는 R이지만, R이 가지고 있는 프로그래밍 방식은 전문적이고 고도화된 데이터 분석까지 가능하게 합니다.

 

R의 단점

 

  • 데이터 분석에만 특화되어 있어 어플리케이션 개발에는 한계가 있다.

    말 그래도 프로그래밍 언어는 프로그램을 개발하기 위한 언어입니다. 하지만 R은 통계 및 데이터 분석에 특화된 언어이므로 웹 서비스나 소프트웨어를 개발하는 데는 한계가 있습니다.

  • 문제가 발생 했을 때, 커뮤니티 등을 통해 해결해야 한다.

    현재 기존의 SAS, SPSS를 사용하던 기존의 기업들이 점점 R 사용을 확대해가고 있습니다. 특히 데이터 관련 업무가 많은 통신 회사나, 넥슨 등 게임 회사들은 R을 활용하고 있습니다. 하지만 오픈소스이기 때문에 사용 중 기술적인 문제가 생기면, 자력으로 처리해야 합니다.

     

R과 파이썬, 어떤 것을 선택해야 할까?

 

데이터 분석에 있어 R 만큼이나 주목 받고 있는 언어는 파이썬입니다. 데이터 분석이 가능하다는 점에서는 같지만, 사실 두 도구는 서로 다른 목적에서 개발되었습니다. R은 데이터 분석 자체에 특화되어 있어 데이터 처리와 통계 분석 기능에 강점을 두고 있습니다. 또한 쉽고 간단한 문법으로 데이터를 분석할 수 있습니다. 반면 파이썬은 프로그래밍 언어입니다. 웹 서비스나 어플리케이션을 개발하는 목적입니다. 타 프로그래밍 언어에 비해 데이터 분석 기능이 잘 구축되어 있고, 텐서플로우(TensorFlow)와 같은 딥러닝 라이브러리가 등장하면서 각광을 받았습니다.

 

정리하자면 사용 목적에 따라 도구를 선택하는 것이 바람직합니다. 데이터 분석에 주 목적이 있다면 R을 선택하고, 웹 서비스나 소프트웨어를 개발하는데 데이터 분석을 활용하고자 한다면 파이썬을 선택하는 것이 좋습니다. 시간적 여유가 있다면 두 가지 모두 선택하는 것도 좋은 방법인 것 같습니다.

 

 

 

R로 무엇을 할 수 있을까?

 

  • 통계 분석

데이터의 속성을 파악하는 기초 통계 분석부터 가설검정에 사용되는 고급 통계 분석 등 다양한

기법을 활용하여 통계의 결과를 시각화 할 수 도 있습니다.

 

  • 머신러닝 모델링

머신러닝은 데이터를 이용해 특정 변수를 예측 할 수 있는 예측 모형을 만드는 기법입니다. R에서는 의사결정 나무, Support Vector Machine, 딥러닝 등 다양한 알고리즘을 활용할 수 있습니다.

 

  • 텍스트 마이닝

문자로 이루어진 데이터를 분석하여 가짜 뉴스 탐지, 워드 클라우드, 소비자 후기 분석 등 다양한 분야에서 활용할 수 있습니다.

 

  • SNS 분석

인스타그램, 트위터, 페이스북등 SNS에서 게시물의 데이터를 분석하여 마케팅에 활용도 가능하며 최근에는 포렌식 등에서도 활용도가 높아지고 있습니다.

 

  • 이미지, 음성 분석

이미지, 그림, 동영상, 음성 등에서 속성을 추출해 데이터로 변환할 수 있습니다. 추출된 데이터를 활용하여 인식, 식별 등 알고리즘을 개발하여 다양하게 활용할 수 있습니다.

 

 

 


R로 할 수 있는 것들이 굉장히 많죠? 초보로 시작하여도 꾸준히 학습한다면, 데이터 분석에 있어 R이라는 아주 좋은 연장이 생길 것입니다.

 

 

다음 시간에는 R설치와 R사용을 편하게 도와주는 R스튜디오에 대한 설치 방법과 사용법에 대해 설명하도록 하겠습니다.

모두들 화이팅 하세요 :)