안녕하세요, 여러분 :) 다들 열심히 공부하고 계신가요.
오늘은 실제 기출문제에 나왔던 이상치 기출문제를 함께 풀어보도록 할게요.
2021년 2회 실기 기출문제 풀이
[2021년 2회 실기 작업형 제 1유형 문제 13]
다음은 insurance 데이터 세트이다. Charges 항목에서 이상값의 합을 구하시오.
(이상값은 평균에서 1.5 표준편차 이상인 값)
이 문제에서 주의해야할 점은 이상값의 기준을 딱 명시해주었기 때문에 그에 맞게 기준선을 정하고
이전까지는 이상치를 제거한 데이터의 범위를 출력해봤다면, 이 문제는 이상치들의 합을 구한다는거에요.
여기에 주의하시고, dplyr 패키지를 통해서 간단하게 문제를 풀어보겠습니다.
1) 데이터 불러오기 및 확인
-아래의 데이터를 다운로드 받아 워킹 디렉토리로 이동해두세요.
-일단 필요한 dplyr 패키지를 로드합니다.
(만약 dplyr 패키지가 처음이시면 install.packages("dplyr") 명령어로 설치하시고 로드하세요.)
-데이터를 불러와서 exam_out 변수에 할당한 후 데이터를 요약합니다.
-charges 변수를 보시면 딱 보더라도 값들의 차이가 많이 나는 것을 확인할 수 있습니다.
2) 평균값과 표준편차 구하기
-이상값은 평균에서 1.5 표준편차 이상인 값이므로 평균과 표준편차를 구합니다.
-각 mean_out, sd_out 변수에 저장하고 값을 확인합니다.
3) 상한선과 하한선 값 구하기
-평균 + 1.5 x 표준편차인 지점을 out_upper 변수에, 평균 - 1.5 x 표준편차인 지점을 out_lower 변수에 할당합니다.
4) 이상값만 추출하여 합계 구하기
-dplyr 패키지의 파이프라인 연산자와 filter, summarise 함수를 활용하여 이상값만 추출하고 합계를 출력합니다.
-파이프라인 연산자는 앞의 데이터값을 뒤로 바로 넘겨준다고 생각하시면 됩니다.
-or연산 (|)을 사용하여 상한선과 하한선 값을 모두 필터링하고 summarise 함수로 집계합니다.
-정답은 6421430입니다.
생각보다 간단하게 문제를 풀 수 있겠죠?
저희가 열심히 공부했던 패키지와 기본 문법, 기본 연산자들이
이렇게 활용될 수 있다는 것을 여러분이 꼭 느끼셨으면 좋겠습니다.
R 공부가 처음이시거나 기본을 공부하지 못하신 분들은
본 블로그에서 제공하는 강의를 듣고 오시면 많은 도움이 되실겁니다.
문의사항 및 강의문의는 댓글 또는 bigdataleader@naver.com 으로 문의주세요.
[빅데이터분석기사_실기] 4. 이상치 판별 -1 (0) | 2021.11.13 |
---|---|
[빅데이터분석기사_실기] 3. 결측치 처리/기출문제 풀이 (0) | 2021.11.12 |
[빅데이터분석기사_실기] 2. 결측치 대체 (0) | 2021.11.11 |
[빅데이터분석기사_실기] 1. 결측치 처리 (0) | 2021.11.10 |
빅데이터분석기사 실기 대비 강의 및 자료 (0) | 2021.11.07 |