-
[KT 에이블스쿨 5기] 4주 2일차 복습_단변량분석(boxplot), 범주형 변수(countplot)KT 에이블스쿨 복습 2024. 3. 12. 23:39
**셀프 복습용으로 작성한 것이라 실수가 있을 수 있습니다!
혹시 실수를 발견하시면 댓글로 알려주시면 감사드리겠습니다 :)
CH04 단변량분석_숫자형 변수 (이어서)
시각화_숫자형 변수
3) Box Plot
- plt.boxplot(): 반드시 NaN (결측치)를 제외해야 함!
- vert 옵션 (vertical)으로 횡(False), 종(True, 기본값)으로 그래프를 그릴 수 있음
변수 = df.loc[df['Age'].notnull()] plt.boxplot(변수['Age']) plt.grid() plt.show()
- sns.boxplot은 NaN을 알아서 빼고 그려줌
sns.boxplot(x = df['Age']) #sns.boxplot(x = df['Age'], data = df) plt.grid() plt.show()
수치화_범주형 변수
1) 범주별 빈도수
- value_counts(): 범주의 개수와 상관없이 범주 별 개수 count
df['열 이름'].value_counts()
2) 범주별 비율
df['열 이름'].value_counts(normalize = True)
시각화_범주형 변수
1) bar chart: seaborn의 countplot 활용
plt.countplot은 집계 + bar plot을 한꺼번에 해결해줌!
# sns.countplot(x=df['범주 열 이름']) sns.countplot(x='범주 열 이름', data=df) # sns.countplot(y='범주 열 이름', data=df) # 가로형, 세로형 구분을 x=, y=로 함 plt.grid() plt.show()
2) pie chart
- plt.pie(값, labels= 범주이름, autopct = '%.2f%%' : 범주별 비율 비교 시 파이차트 사용
- .2f%: 소수점 두 자리 퍼센트로 표기한다는 의미
변수 = df['범주 열 이름'].value_counts() plt.pie(변수.values, labels = 변수.index, autopct = '%.2f%%') plt.show()
'KT 에이블스쿨 복습' 카테고리의 다른 글
[0314 복습] 평균추정과 신뢰구간, 중심극한정리, 이변량분석_범주형(교차표 crosstab, mosaic plot, 카이제곱 검정) (3) 2024.03.15 [0313 복습] 가설 검정, 이변량분석_수치형/범주형변수 (산점도, 상관분석, t-test, 분산분석) (0) 2024.03.13 [KT 에이블스쿨 5기] 4주 1일차 복습_데이터 분석 방법론(CRISP-DM, EDA & CDA), 시각화(히스토그램, 밀도함수 그래프) (0) 2024.03.11 [KT 에이블스쿨 5기] DX트랙 3주 3일차 복습_데이터프레임 변경(3) (1) 2024.03.06 [KT 에이블스쿨 5기] DX트랙 3주 2일차 복습_데이터프레임 변경 (1) 2024.03.05