빅데이터분석기사

[빅분기] CH1. 데이터 전처리_데이터 정제

리니끄적 2024. 3. 18. 21:18
24.03.18
 
 
01. 데이터에 내재된 변수의 이해

1) 데이터 관련 정의

① 데이터(Data): 이론을 세우는 기초가 되는 사실 또는 자료를 지칭, 기호화/수치화된 자료를 말함

② 단위(Unit): 관찰되는 항목 또는 대상을 지칭

③ 관측값(Observation): 각 조사 단위별 기록정보 또는 특성

④ 변수(Variable): 각 단위에서 측정된 특성 결과

⑤ 원자료(Raw Data): 표본에서 조사된 최초의 자료

 

2) 데이터의 종류

① 단변량자료(Univariate Data): 자료의 특성을 대표하는 특성 변수가 하나인 자료

② 다변량자료(Multivariate Data): 자료의 특성을 대표하는 특성 변수가 두 가지 이상인 자료

③ 질적자료(Qualitative Data): 정성적 or 범주형 자료, 자료를 범주의 형태로 분류, 분류의 편의상 부여된 수치의 크기자체에는 의미 부여 X, 명목자료와 서열자료가 있음

- 명목자료: 측정대상이 범주나 종류에 대해 구분되어지는 것을 수치 또는 기호로 분류되는 자료

- 서열자료: 명목자료와 비슷하나 수치나 기호가 서열을 나타내는 자료

④ 수치자료(Quantitative Data): 정량적 or 연속형 자료, 숫자의 크기에 의미를 부여할 수 있는 자료, 구간자료와 비율자료

- 구간자료: 명목/서열자료의 의미를 포함하면서 숫자로 표현된 변수에 대해 변수 간의 관계가 산술적인 의미를 가지는 자료

- 비율자료: 명목/서열/구간자료의 의미를 다 가지는 자료, 수치화된 변수에 비율의 개념을 도입할 수 있는 자료

시계열자료(Time Series Data): 일정한 시간간격 동안에 수집된, 시간개념이 포함되어 있는 자료

횡적자료(Cross Sectional Data): 횡단면자료라고도 하며 특정 단일 시점에서 여러 대상으로부터 수집된 자료

⑦ 종적자료(Longitudinal Data): 시계열자료와 횡적자료의 결합으로 여러 개체를 여러 시점에서 수집한 자료

 

3) 데이터의 정제

① 데이터 정제의 필요성

② 정제과정을 거치지 않은 데이터의 문제점: 데이터 구성의 일관성 없어지므로 분석 처리 어려움, 도출된 결과의 신뢰성 저하 발생

③ 데이터 정제의 과정(Processing)

- 시스템 내, 외부에서 데이터를 수집하면 정형보다 비정형 데이터들이 많음

구분 수행내용 Process
데이터의 수집 - 데이터의 입수 방법 및 정책 결정
- 입수경로의 구조화
- 집계(Aggregation)
- 저장소 결정
전처리
(Pre Processing)
포함
데이터의 변환 - 데이터 유형의 변화 및 분석 가능한 형태로 가공
- ETL
- 일반화
- 정규화
- 평활화
 
데이터의 교정 - 결측치의 처리, 이상치 처리, 노이즈 처리
- 비정형데이터 수집 시 필수사항
 
데이터의 통합 - 데이터분석이 용이하도록 기존 또는 유사 데이터와의 연계 통합
- 레거시 데이터와 함께 분석이 필요할 경우 수행
 

 

- 집계: 데이터 요약하거나 그룹화 / 데이터의 합계, 평균, 중앙값, 최빈값, 최소/최대값, 분산과 표준편차 등

- 일반화: 일반적인 특성이나 패턴 추출

- 정규화: 일정한 범위로 조정해 상대적인 크기 차이 제거, 데이터를 표준화하는 작업(수치형 데이터에 적용)

 Min-Max 정규화, Z-score 정규화 등의 방법 사용(데이터의 상대적 비교 용이하게, 이상치에 대한 영향 완화가 주 목적)

- 평활화: 데이터의 변동 줄이고 노이즈 제거, 데이터 시계열 분석, 시각화, 예측 등 분야에 사용됨

이동평균법, 지수평활법, Savitzky-Golay 필터법 등

④ 데이터 정제의 전처리, 후처리

- 전처리: 데이터 저장 전의 처리과정, 입수방법 결정 및 저장방식 장소 선정 등 / 후처리: 저장 후의 처리 지칭, 품질관리 등

 

 

02. 데이터 결측값 처리

- 결측치 임의 제거 시: 분석 데이터의 직접손실로 분석에 필요한 유의수준 데이터 수집에 실패할 가능성 발생

- 결측치 임의 대체 시: 데이터의 편향이 발생해 분석 결과의 신뢰성 저하 가능성 있음

 

1) 결측 데이터의 종류

① 완전 무작위 결측: 어떤 변수상에서 결측 데이터가 관측된 or 관측되지 않은 다른 변수와 아무런 연관 X

② 무작위 결측: 변수상의 결측데이터가 관측된 다른 변수와 연관, 그 자체가 비관측값들과는 연관되지 않은 경우

③ 비 무작위 결측: 결측 데이터가 완전 무작위 결측 or 무작위 결측이 아닌 결측 데이터 (결측변수값이 결측여부와 관련이 있는 경우)

나이대(X), 성별(Y)과 체중(Z) 분석에 대한 모델링 가정
X, Y, Z와 관계없이 Z 없는 경우: 데이터 누락 → 완전 무작위 결측
여성(Y)은 체중 공개를 꺼려하는 경향: Z 누락 가능성이 Y에만 의존 → 무작위 결측
젊은(X) 여성(Y)은 체중 공개를 꺼리는 경우가 높음 → 무작위 결측
무거운(가벼운) 사람들은 체중 공개 가능성이 적음: Z 누락 가능성이 Z값 자체에 관찰되지 않는 값에 달려있음
→ 비 무작위 결측

 

 

2) 결측값 유형의 분석 및 대치

- 일반적으로 안전 무작위 결측하에 처리, 그러나 세 가지 고려사항 발생(ㅎ율성, 자료처리복잡성, 편향 문제)

단순 대치법

- 완전 분석: 불완전 자료는 완전히 무시, 분석의 용이성을 보장하나 효율성 상실 & 통계적 추론의 타당성에 문제 발생 가능성

- 평균 대치법: 데이터의 평균으로 결측치를 대치해서 사용, 효율성 향상 장점, 통계량의 표준오차가 과소 추정되는 단점 (비조건부 평균 대치법)

- 회귀 대치법: 회귀분석에 의한 예측치로 결측치 대체 (조건부 평균 대치법)

- 단순확률 대치법: 평균 대치법에서 추정량 표준오차의 과소 추정을 보완하는 대치법 (Hot-deck 방법), 전체 데이터 중 무작위로 대치

- 최근접 대치법: 응답자료를 순서대로 정리한 후, 결측값 바로 이전의 응답을 결측치로 대치, 응답값이 여러 번 사용될 가능성이 단점

② 다중 대치법: 단순 대치법을 복수로 시행해 통계적 효율성 및 일치성 문제를 보완하기 위해 만들어진 방법

- 1단계(대치단계): 복수의 대치에 의한 결측을 대치한 데이터를 생성

- 2단계(분석단계): 복수 개의 데이터셋에 대한 분석 시행

- 3단계(결합단계): 복수 개의 분석결과에 대한 통계적 결합을 통해 결과 도출

 

03. 데이터 이상값 처리

- 데이터 전처리 과정에 발생 가능한 문제로 정상의 범주(데이터의 전체적 패턴)에서 벗어난 값을 의미

 

1) 이상치의 종류 및 발생원인

① 이상치의 종류

- 단변수 이상치: 하나의 데이터 분포에서 발생하는 이상치

- 다변수 이상치: 복수의 연결된 데이터 분포공간에서 발생하는 이상치

② 이상치의 발생 원인

- 비자연적 이상치 발생: 입력실수, 측정오류, 실험오류, 의도적 이상치(자기 보고 측정에서 발생되는 이상치 지칭 ex.남성은 키를 의도적으로 높게 기입), 자료처리 오류, 표본오류

**위 이외에 발생하는 이상치 = 자연적 이상치

 

2) 이상치의 문제점

기초(통계적) 분석결과의 신뢰도 저하: 평균, 분산 등에 영 but 중앙값에는 영향 적음

② 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하: 검정, 추정 등의 분석, 회귀분석 등이 영향 받음

 

3) 이상치의 탐지

① 시각화를 통한 방법(비모수적, 단변량(2변량)의 경우)

- box plot(상자 수염그림) / 줄기-잎 그림 / 산점도 그림

② Z-score 방법(모수적 단변량 또는 저변량의 경우)

- 데이터를 정규화 해 평균이0이고 표준편차가 1인 표준정규분포로 변환

- 데이터가 정규분포를 따른다고 가정할 때 효과적으로 작동, 비정규분포를 따르는 경우에는 잘못된 결과 도출할 수 있음

③ 밀도기반 클러스터링 방법(DBSCAN)

- 비모수적 다변량의 경우 군집간의 밀도 이용해 특정 거리 내의 데이터 수가 지정 개수 이상이면 군집으로 정의하는 방법 → 군집에서 먼거리에 있는 데이터 이상치로 간주

④ 고립 의사결정나무의 동작 과정

- 데이터 포인트 분할 → 분할 기준 설정 → 분할된 데이터 영역 계산 → 이상치 탐지 → 의사결정나무 생성