데이터분석
이상치와 결측치
꿈꾸는 데이터분석가
2023. 12. 5. 17:29
데이터 분석을 하다보면 전처리 과정이 시간이 많이 소요되기도 하고 가장 중요하게 깨닫는 순간들이 많다.
이상치(OutLier)
보통 관측된 기존의 데이터과 다른 데이터를 뜻합니다. 이는 아주 특이하거나 오류 일 수 있습니다.
일반적으론 이상치는 의사결정에 큰 영향을 미칠 수 있기 때문에 전처리 과정에서 처리가 필요합니다.
그러나 카드사기, 네트워크 침입분석에서는 이상치를 활용할 수 도 있습니다.
결측치(Missing Values)
데이터 수집 과정에서 측정되지 않거나 누락된 데이터를 뜻합니다.
결측치가 생겼을 때 데이터를 제거하거나, 데이터를 예측하거나, 분석단계에서 결측치를 무시하는 방법이 있습니다.
데이터 예측이 가능한 경우는 변동이 심하지 않는 경우 ,예를 들면 특정시간의 날씨의 경우 일정한 값을 나타내기 때문에 예측이 가능합니다.
이상치 탐지
표준편차
Box Plots
통계적으로는 상/하위 3 표준편차를 벗어나거나 박스 플롯에서 1.5 IQR을 벗어나면 보통 이상치로 판단한다고 합니다.
IQR method란 박스플롯 그래프를 사분위수를 사용하여 데이터의 모양을 표시합니다.
박스는 25번째와 75번째 백분위 수와 같은 1사 분위수와 3사분위수를 나타냅니다.
(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 * IQR) 큰 데이터를 이상치로 처리합니다.