KT 에이블스쿨 복습
[KT 에이블스쿨 5기] 4주 2일차 복습_단변량분석(boxplot), 범주형 변수(countplot)
리니끄적
2024. 3. 12. 23:39
**셀프 복습용으로 작성한 것이라 실수가 있을 수 있습니다!
혹시 실수를 발견하시면 댓글로 알려주시면 감사드리겠습니다 :)
CH04 단변량분석_숫자형 변수 (이어서)
시각화_숫자형 변수
3) Box Plot
- plt.boxplot(): 반드시 NaN (결측치)를 제외해야 함!
- vert 옵션 (vertical)으로 횡(False), 종(True, 기본값)으로 그래프를 그릴 수 있음
변수 = df.loc[df['Age'].notnull()]
plt.boxplot(변수['Age'])
plt.grid()
plt.show()
- sns.boxplot은 NaN을 알아서 빼고 그려줌
sns.boxplot(x = df['Age'])
#sns.boxplot(x = df['Age'], data = df)
plt.grid()
plt.show()
수치화_범주형 변수
1) 범주별 빈도수
- value_counts(): 범주의 개수와 상관없이 범주 별 개수 count
df['열 이름'].value_counts()
2) 범주별 비율
df['열 이름'].value_counts(normalize = True)
시각화_범주형 변수
1) bar chart: seaborn의 countplot 활용
plt.countplot은 집계 + bar plot을 한꺼번에 해결해줌!
# sns.countplot(x=df['범주 열 이름'])
sns.countplot(x='범주 열 이름', data=df)
# sns.countplot(y='범주 열 이름', data=df) # 가로형, 세로형 구분을 x=, y=로 함
plt.grid()
plt.show()
2) pie chart
- plt.pie(값, labels= 범주이름, autopct = '%.2f%%' : 범주별 비율 비교 시 파이차트 사용
- .2f%: 소수점 두 자리 퍼센트로 표기한다는 의미
변수 = df['범주 열 이름'].value_counts()
plt.pie(변수.values, labels = 변수.index, autopct = '%.2f%%')
plt.show()