변수와상수, r 변수, r studio, r 프로그래밍, r 변수명생성, r 공부하기, 빅데이터 r, r 함수, r 패키지, 빅데이터분석기사
안녕하세요 :-) 빅데이터리더 김민지입니다.
지난 시간 까지, r과 r스튜디오를 설치하고, 워킹 디렉토리와 환경설정까지 마무리해보았습니다.
오늘은 실제 r 프로그래밍을 떠나서라도 우리가 기본적으로 알아두어야할 데이터 세트를 읽는 방법, 변수와 상수, 변수명 생성규칙까지 알아보고 실습하도록 하겠습니다.
앞으로 우리가 무수히 많이 보게 될 데이터 세트는 아래 예시와 같이 행과 열로 이루어져 있는 것이 일반적입니다. 데이터 세트는 행(관측치), 열(변수), 데이터 값 등 다양한 구성 요소를 포함하고 있고, 효율적인 데이터 분석을 위해서는 이 개념을 확실하게 알아 둬야 합니다.
ID |
SEX |
AGE |
AREA |
1 |
F |
30 |
제주 |
2 |
F |
23 |
제주 |
3 |
M |
25 |
제주 |
4 |
M |
56 |
제주 |
5 |
F |
54 |
제주 |
6 |
F |
43 |
제주 |
7 |
M |
37 |
제주 |
8 |
F |
43 |
제주 |
9 |
F |
34 |
제주 |
10 |
M |
54 |
제주 |
[개념 설명]
데이터 세트: 위 표와 같이 행과 열로 이루어진 데이터 구조를 말합니다.
행(Row): 데이터 세트의 가로 영역으로 데이터의 관측치(Observations)라고도 부릅니다.
위 예시에서는 관측치가 10개 입니다. ID 1번은 성별(SEX)이 F, 연령(AGE)이 30, 지역(AREA)이 제주인 데이터로 구성되어 있습니다. ID별로 데이터를 수집해 놓은 것으로 이해하면 됩니다
열(Column): 데이터 세트의 세로 영역으로 변수 (Variable)라고도 부릅니다. 위 예시에서는 열이 4개이며 ID,SEX,AGE,AREA 변수로 구성되어 있습니다.
데이터 값(Value): 관측된 값을 의미합니다. 위 예시에서 ID 5번의 관측치 중 성별(SEX)의 데이터 값은 F입니다.
변수란?
위 데이터 세트에서 세로 영역에 해당하는 부분을 변수라고 지칭하였습니다.
변수는 말 그대로 ‘변하는 수’이며 데이터 분석의 대상이 됩니다. 10명중에 여자가 많은지, 남자가 많은지 연령대가
어떻게 분포되는지 등은 변수의 값에 따라 달라지게 됩니다. 즉 데이터 분석은 변수 간에 어떤 관계를 가지고 있는지
파악하는 작업이라고 할 수 있습니다.
상수란?
상수는 변수와 반대되는 개념으로 하나의 값으로만 되어 있는 속성을 의미합니다. 위 데이터 세트에서 AREA의 데이터는 모두 제주임을 확인할 수 있습니다. 상수는 변수와 달리 데이터 분석에서 큰 영향을 차지하지 못합니다.
위 데이터 세트로는 모든 사람이 제주도에 거주하고 있기 때문에 지역에 따른 성별 차이나, 지역에 따른 연령 비율을
분석할 수 없습니다.
R에서 변수를 생성해 보겠습니다. 일단 변수는 변하는 값이기에, 먼저 변하는 값을 담을 그릇이필요 합니다.
여기선 그 그릇을 x라고 정해봅시다. 이 그릇에 10이라는 임의의 변수를 담으려고 합니다.
어떻게 하면 좋을까요?
x <- 10 형식으로 작성합니다. 이것은 ‘데이터 10을 변수 x에 할당합니다’라는 의미입니다.
여기서 ‘<-‘는 할당 연산자(Assignment Operators)라고 하며, <와 –를 결합해서 입력합니다.
간단하죠?
이외에도 다양한 방식으로 변수를 생성할 수 있습니다.
c ()함수: c는 combine(합치다)의 약어로 데이터 값 여러 개를 변수로 구성할 때 사용합니다.
이때 c는 반드시 소문자여야 합니다.
: (콜론) : 시작 숫자와 마지막 숫자 사이의 1씩 증가하는 연속 값을 변수로 구성합니다.
seq () 함수 : seq는 sequence(연속)의 약어로 연속 값을 변수로 구성합니다. by=2와 같은 옵션을 추가하면 일정한 간격의 연속된 숫자로 구성된 변수를 생성할 수 있습니다.
R스튜디오에서 Script 창에 다음과 같이 코드를 작성합니다.
작성한 코드를 모두 드래그해서 블록으로 지정하고 Ctrl + Enter를 누르거나 전체 실행 단축키
Ctrl+Alt+R을 눌러 코드를 실행해봅니다.
변수를 생성할 때는 변수명을 자유롭게 지을 수 있지만 다음 몇 가지 규칙을 지켜야 합니다.
또한 실제 분석에서는 x또는 y와 같은 변수보다는 id, age, area와 같이 분명하고 알아보기 쉽게 의미를 담아 변수명을 설정하는 것이 좋습니다.
1. 첫 글자는 반드시 영문자(알파벳) 또는 마침표(.)여야 합니다. 하지만 마침표를 첫 글자로 사용하는 경우는 드뭅니다.
예) age, .age
2. 두 번째 글자부터는 영문자, 숫자, 밑줄(_)을 사용할 수 있습니다.
예) a1ge, a_ge, a1_ge
3. 대문자와 소문자를 구분합니다.
예) age과 Age은 서로 다른 변수
4. 변수명 중간에 빈칸을 넣을 수 없습니다. 대개 _ 문자를 활용하여 빈칸을 표현합니다.
예) ag e는 변수명으로 사용 불가
변수명은 위와 같은 규칙을 지키되 기억하기 쉽고 일정한 규칙을 갖도록 짓는 것이 좋습니다. 또한 R은 대문자와 소문자를 구별하므로 가급적이면 소문자로 작성하는 것을 추천합니다.
별로 어렵지 않은 내용이죠? 하지만 변수의 개념, 그리고 변수명 생성규칙은 기본 총알처럼 우리가 항상 지니고 있어야 하는 개념입니다. 꼼꼼히 알아두고 다음시간에는 r의 핵심사항, 함수와 패키지에 대해서 알아보도록 하겠습니다.
문의사항이 있으시면 댓글이나 메일로 알려주세요. (bigdataleader@naver.com)
-끝