[빅분기] CH1. 데이터 전처리_데이터 정제
1) 데이터 관련 정의
① 데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 기호화/수치화된 자료를 말함
② 단위(Unit): 관찰되는 항목 또는 대상을 지칭
③ 관측값(Observation): 각 조사 단위별 기록정보 또는 특성
④ 변수(Variable): 각 단위에서 측정된 특성 결과
⑤ 원자료(Raw Data): 표본에서 조사된 최초의 자료
2) 데이터의 종류
① 단변량자료(Univariate Data): 자료의 특성을 대표하는 특성 변수가 하나인 자료
② 다변량자료(Multivariate Data): 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료
③ 질적자료(Qualitative Data): 정성적 or 범주형 자료, 자료를 범주의 형태로 분류, 분류의 편의상 부여된 수치의 크기자체에는 의미 부여 X, 명목자료와 서열자료가 있음
- 명목자료: 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료
- 서열자료: 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료
④ 수치자료(Quantitative Data): 정량적 or 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료, 구간자료와 비율자료
- 구간자료: 명목/서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해 변수 간의 관계가 산술적인 의미를 가지는 자료
- 비율자료: 명목/서열/구간자료의 의미를 다 가지는 자료, 수치화된 변수에 비율의 개념을 도입할 수 있는 자료
⑤ 시계열자료(Time Series Data): 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료
⑥ 횡적자료(Cross Sectional Data): 횡단면자료라고도 하며 특정 단일 시점에서 여러 대상으로부터 수집된 자료
⑦ 종적자료(Longitudinal Data): 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료
3) 데이터의 정제
① 데이터 정제의 필요성
② 정제과정을 거치지 않은 데이터의 문제점: 데이터 구성의 일관성 없어지므로 분석 처리 어려움, 도출된 결과의 신뢰성 저하 발생
③ 데이터 정제의 과정(Processing)
- 시스템 내, 외부에서 데이터를 수집하면 정형보다 비정형 데이터들이 많음
구분 | 수행내용 | Process |
데이터의 수집 | - 데이터의 입수 방법 및 정책 결정 - 입수경로의 구조화 - 집계(Aggregation) - 저장소 결정 |
전처리 (Pre Processing) 포함 |
데이터의 변환 | - 데이터 유형의 변화 및 분석 가능한 형태로 가공 - ETL - 일반화 - 정규화 - 평활화 |
|
데이터의 교정 | - 결측치의 처리, 이상치 처리, 노이즈 처리 - 비정형데이터 수집 시 필수사항 |
|
데이터의 통합 | - 데이터분석이 용이하도록 기존 또는 유사 데이터와의 연계 통합 - 레거시 데이터와 함께 분석이 필요할 경우 수행 |
- 집계: 데이터 요약하거나 그룹화 / 데이터의 합계, 평균, 중앙값, 최빈값, 최소/최대값, 분산과 표준편차 등
- 일반화: 일반적인 특성이나 패턴 추출
- 정규화: 일정한 범위로 조정해 상대적인 크기 차이 제거, 데이터를 표준화하는 작업(수치형 데이터에 적용)
Min-Max 정규화, Z-score 정규화 등의 방법 사용(데이터의 상대적 비교 용이하게, 이상치에 대한 영향 완화가 주 목적)
- 평활화: 데이터의 변동 줄이고 노이즈 제거, 데이터 시계열 분석, 시각화, 예측 등 분야에 사용됨
이동평균법, 지수평활법, Savitzky-Golay 필터법 등
④ 데이터 정제의 전처리, 후처리
- 전처리: 데이터 저장 전의 처리과정, 입수방법 결정 및 저장방식 장소 선정 등 / 후처리: 저장 후의 처리 지칭, 품질관리 등
02. 데이터 결측값 처리
- 결측치 임의 제거 시: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성 발생
- 결측치 임의 대체 시: 데이터의 편향이 발생해 분석 결과의 신뢰성 저하 가능성 있음
1) 결측 데이터의 종류
① 완전 무작위 결측: 어떤 변수상에서 결측 데이터가 관측된 or 관측되지 않은 다른 변수와 아무런 연관 X
② 무작위 결측: 변수상의 결측데이터가 관측된 다른 변수와 연관, 그 자체가 비관측값들과는 연관되지 않은 경우
③ 비 무작위 결측: 결측 데이터가 완전 무작위 결측 or 무작위 결측이 아닌 결측 데이터 (결측변수값이 결측여부와 관련이 있는 경우)
나이대(X), 성별(Y)과 체중(Z) 분석에 대한 모델링 가정
X, Y, Z와 관계없이 Z 없는 경우: 데이터 누락 → 완전 무작위 결측
여성(Y)은 체중 공개를 꺼려하는 경향: Z 누락 가능성이 Y에만 의존 → 무작위 결측
젊은(X) 여성(Y)은 체중 공개를 꺼리는 경우가 높음 → 무작위 결측
무거운(가벼운) 사람들은 체중 공개 가능성이 적음: Z 누락 가능성이 Z값 자체에 관찰되지 않는 값에 달려있음
→ 비 무작위 결측
2) 결측값 유형의 분석 및 대치
- 일반적으로 안전 무작위 결측하에 처리, 그러나 세 가지 고려사항 발생(ㅎ율성, 자료처리복잡성, 편향 문제)
① 단순 대치법
- 완전 분석: 불완전 자료는 완전히 무시, 분석의 용이성을 보장하나 효율성 상실 & 통계적 추론의 타당성에 문제 발생 가능성
- 평균 대치법: 데이터의 평균으로 결측치를 대치해서 사용, 효율성 향상 장점, 통계량의 표준오차가 과소 추정되는 단점 (비조건부 평균 대치법)
- 회귀 대치법: 회귀분석에 의한 예측치로 결측치 대체 (조건부 평균 대치법)
- 단순확률 대치법: 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법 (Hot-deck 방법), 전체 데이터 중 무작위로 대치
- 최근접 대치법: 응답자료를 순서대로 정리한 후, 결측값 바로 이전의 응답을 결측치로 대치, 응답값이 여러 번 사용될 가능성이 단점
② 다중 대치법: 단순 대치법을 복수로 시행해 통계적 효율성 및 일치성 문제를 보완하기 위해 만들어진 방법
- 1단계(대치단계): 복수의 대치에 의한 결측을 대치한 데이터를 생성
- 2단계(분석단계): 복수 개의 데이터셋에 대한 분석 시행
- 3단계(결합단계): 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출
03. 데이터 이상값 처리
- 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미
1) 이상치의 종류 및 발생원인
① 이상치의 종류
- 단변수 이상치: 하나의 데이터 분포에서 발생하는 이상치
- 다변수 이상치: 복수의 연결된 데이터 분포공간에서 발생하는 이상치
② 이상치의 발생 원인
- 비자연적 이상치 발생: 입력실수, 측정오류, 실험오류, 의도적 이상치(자기 보고 측정에서 발생되는 이상치 지칭 ex.남성은 키를 의도적으로 높게 기입), 자료처리 오류, 표본오류
**위 이외에 발생하는 이상치 = 자연적 이상치
2) 이상치의 문제점
① 기초(통계적) 분석결과의 신뢰도 저하: 평균, 분산 등에 영 but 중앙값에는 영향 적음
② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하: 검정, 추정 등의 분석, 회귀분석 등이 영향 받음
3) 이상치의 탐지
① 시각화를 통한 방법(비모수적, 단변량(2변량)의 경우)
- box plot(상자 수염그림) / 줄기-잎 그림 / 산점도 그림
② Z-score 방법(모수적 단변량 또는 저변량의 경우)
- 데이터를 정규화 해 평균이0이고 표준편차가 1인 표준정규분포로 변환
- 데이터가 정규분포를 따른다고 가정할 때 효과적으로 작동, 비정규분포를 따르는 경우에는 잘못된 결과 도출할 수 있음
③ 밀도기반 클러스터링 방법(DBSCAN)
- 비모수적 다변량의 경우 군집간의 밀도 이용해 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법 → 군집에서 먼거리에 있는 데이터 이상치로 간주
④ 고립 의사결정나무의 동작 과정
- 데이터 포인트 분할 → 분할 기준 설정 → 분할된 데이터 영역 계산 → 이상치 탐지 → 의사결정나무 생성