본문 바로가기
빅데이터 학습자료/03. 데이터분석_R

[빅데이터분석기사_실기] 5. 이상치 기출문제풀이

by OBIG 2021. 11. 14.

안녕하세요, 여러분 :) 다들 열심히 공부하고 계신가요. 

 

오늘은 실제 기출문제에 나왔던 이상치 기출문제를 함께 풀어보도록 할게요. 

 


2021년 2회 실기 기출문제 풀이 

 

[2021년 2회 실기 작업형 제 1유형 문제 13] 

다음은 insurance 데이터 세트이다. Charges 항목에서 이상값의 합을 구하시오.

(이상값은 평균에서 1.5 표준편차 이상인 값)

 

이 문제에서 주의해야할 점은 이상값의 기준을 딱 명시해주었기 때문에 그에 맞게 기준선을 정하고

이전까지는 이상치를 제거한 데이터의 범위를 출력해봤다면, 이 문제는 이상치들의 합을 구한다는거에요. 

여기에 주의하시고, dplyr 패키지를 통해서 간단하게 문제를 풀어보겠습니다. 

 


1) 데이터 불러오기 및 확인 

 

-아래의 데이터를 다운로드 받아 워킹 디렉토리로 이동해두세요. 

insurance.csv
0.05MB

 

 

 

-일단 필요한 dplyr 패키지를 로드합니다.

(만약 dplyr 패키지가 처음이시면 install.packages("dplyr") 명령어로 설치하시고 로드하세요.)

 

-데이터를 불러와서 exam_out 변수에 할당한 후 데이터를 요약합니다. 

 

-charges 변수를 보시면 딱 보더라도 값들의 차이가 많이 나는 것을 확인할 수 있습니다. 

 

2) 평균값과 표준편차 구하기 

-이상값은 평균에서 1.5 표준편차 이상인 값이므로 평균과 표준편차를 구합니다. 

 

-각 mean_out, sd_out 변수에 저장하고 값을 확인합니다. 

 

3) 상한선과 하한선 값 구하기 

-평균 + 1.5 x 표준편차인 지점을 out_upper 변수에, 평균 - 1.5 x 표준편차인 지점을 out_lower 변수에 할당합니다. 

 

4) 이상값만 추출하여 합계 구하기 

-dplyr 패키지의 파이프라인 연산자와 filter, summarise 함수를 활용하여 이상값만 추출하고 합계를 출력합니다. 

 

-파이프라인 연산자는 앞의 데이터값을 뒤로 바로 넘겨준다고 생각하시면 됩니다. 

 

-or연산 (|)을 사용하여 상한선과 하한선 값을 모두 필터링하고 summarise 함수로 집계합니다. 

 

-정답은 6421430입니다. 

 


생각보다 간단하게 문제를 풀 수 있겠죠? 

 

저희가 열심히 공부했던 패키지와 기본 문법, 기본 연산자들이

이렇게 활용될 수 있다는 것을 여러분이 꼭 느끼셨으면 좋겠습니다.

 

R 공부가 처음이시거나 기본을 공부하지 못하신 분들은

본 블로그에서 제공하는 강의를 듣고 오시면 많은 도움이 되실겁니다. 

 

문의사항 및 강의문의는 댓글 또는 bigdataleader@naver.com 으로 문의주세요.