본문 바로가기

r 데이터분석2

[빅데이터분석기사_실기] 4. 이상치 판별 -1 안녕하세요, 여러분 :-) 지난 시간에 배운 결측치는 모두 잘 이해하셨겠죠? 데이터 분석에 있어서 데이터 전처리는 핵심이고 데이터 전처리에서 결측치와 이상치 처리는 기본 중 기본이므로 열심히 학습하시길 바랄게요. 이번엔 이상치에 대해서 배워보도록 하겠습니다. 1) 이상치(Outlier)란? -이상치는 관측된 데이터의 범위에서 너무 크거나 작은 값을 의미합니다. -이상치 관측 원인은 입력 오류, 데이터 처리 오류, 샘플링 오류 등이 있습니다. 2) 이상치 판별 -이상치를 판별 할 수 있는 방법은 크게 2가지로 정리할 수 있습니다. R 함수 활용 -R의 outliers 패키지를 설치하여 outlier 함수로 이상치를 판별합니다. 사분위수 활용 -제 3사분위수에서 제 1사분위수의 값을 뺀(Q3-Q1)다음 1... 2021. 11. 13.
[빅데이터분석기사_실기] 1. 결측치 처리 데이터 전처리에서 결측치를 확인하고 처리하는 과정은 기본 중 기본입니다. 빅데이터분석기사 실기 시험에 실제 결측치 처리(단순 대치법)문제가 나왔습니다. 공부해봅시다 ! ! :-) 1) 결측치란? -결측치는 관측되지 않은 값으로서 NA(Not Available)로 표시됩니다. -데이터에 결측치가 포함되어 있으면 산술연산과 같은 데이터 분석을 제대로 할 수 없습니다. 2) 결측치 데이터 처리 순서 (***) -결측치 확인 -결측치 처리 방법 결정 (삭제 or 대치) -결측치 삭제 -결측치 대체 결측치 처리 순서 잘 보셨나요? 이 순서대로 R로 학습하도록 하겠습니다. -필요한 데이터 세트 : airquality(내장 데이터) , 생성 데이터 -필요한 패키지 : dplyr 1. 결측치 확인 is.na(x) 데이.. 2021. 11. 10.