-
[0315 복습] 이변량분석(kde plot, histogram), 시계열 데이터 분석KT 에이블스쿨 복습 2024. 3. 16. 11:16
CH10 이변량분석_숫자 → 범주
시각화
- 시각화: kde Plot, Histogram
- 범주별 분포로 비교하는 그래프 그리기 / 범주별 비율로 비교하는 그래프 그리기
수치화
- 수치화(가설검정)하는 딱 맞는 방법은 따로 없음!
- 숫자를 범주로 변환 후, 범주 vs 범주로 비교 (카이제곱 검정)
- 범주 → 숫자로 생각 후 t-test, anova (그러나 x, y에 선후관계가 있다면 곤란!)
- 로지스틱 회귀 모델 만들고, 회귀 계수에 대한 유의성 검정!
sns.kdeplot()
- common_norm = False: 생조자, 사망자를 각각 kde plot 그리기
- mulitple = 'fill': 모든 구간에 대한 100% 비율로 kde plot 그리기
** 전체 평균 선 기준으로 그래프 해석
#면적과 상관없이 각각 그려라 옵션! -> 그래야 아래 그래프처럼 전체평균과 맞닿는 지점이 같아짐! sns.kdeplot(x='수치형', data = df, hue ='범주형', common_norm = False) plt.grid() plt.show()
# 그래프 면적 합쳐서 1이고 나눠서 채워라! sns.kdeplot(x='수치형', data = df, hue ='범주형' , multiple = 'fill') plt.axhline(df['범주형'].mean(), color = 'r') plt.show()
그래프 해석 내용
#운임이 300-500까지인 사람은 탑승하지 않았고, 500이상의 운임을 낸 사람들은 모두 생존했다!
#대부분 전체 평균보다 생존율이 높은 구간은 운임이 높은 구간이었다!
#운임이 0보다 작은 값은 없는데 왜 밀도함수 그래프는 이렇게 나타나나요?
#0에 값들이 밀도 높게 모여잇는데 이제 라인이 그려져야 하니까 그 0에 있는 값들이 밀려서 마치 값이 있는 것처럼 보임! (sliding window)CH11 시계열 데이터 분석
- 시계열 데이터: 데이터 분석 단위(행) 간에 시간 순서가 있는 데이터
→ 이전과 이후 데이터 간의 관계가 있다!
- 시계열 데이터는 기존 데이터 분석 방법으로 할 시 문제가 생김!
시간의 흐름에 따른 패턴 찾기
- 라인차트: 라인차트를 활용해 추세를 시각화해서 해석
- 시계열 데이터 분해: trend(추세 패턴) /seasonal(사이클, 계절성 패턴)
→ 원본 데이터를 분해해 추세나 사이클을 따로 해석!
- 자기상관함수: 시점에 따른 패턴이 있는지를 확인 (시계열 모델링에서 y 및 잔차 검토 시 사용)
패턴을 데이터로 만들기
- .dt.날짜요소: 날짜 요소 추출
- .shift(): 시계열 데이터에서 시간의 흐름 전후로 정보를 이동시킬 때 활용. shift(1)은 단위기간 하나 뒤로 밀어내는 것! Time lag
- .rolling(),mean(): moving average, 시간의 흐름에 따라 일정 기간 동안의 평균을 이동하면서 구하기!
- .diff(): 특정 시점의 데이터, 이전시점의 데이터와의 차이 구하기(차분), y에 패턴이 안 보일 때!
'KT 에이블스쿨 복습' 카테고리의 다른 글
[0319 복습] 웹 크롤링_동적 페이지, REST API, HTML, CCS-Selector (0) 2024.03.19 [0318 복습] 파이썬 class 선언, 데이터 수집_웹 크롤링, 데이터 스케일링, 상관계수 분석 (1) 2024.03.18 [0314 복습] 평균추정과 신뢰구간, 중심극한정리, 이변량분석_범주형(교차표 crosstab, mosaic plot, 카이제곱 검정) (3) 2024.03.15 [0313 복습] 가설 검정, 이변량분석_수치형/범주형변수 (산점도, 상관분석, t-test, 분산분석) (0) 2024.03.13 [KT 에이블스쿨 5기] 4주 2일차 복습_단변량분석(boxplot), 범주형 변수(countplot) (0) 2024.03.12