KT 에이블스쿨 복습

[KT 에이블스쿨 5기] 4주 2일차 복습_단변량분석(boxplot), 범주형 변수(countplot)

리니끄적 2024. 3. 12. 23:39

**셀프 복습용으로 작성한 것이라 실수가 있을 수 있습니다!

혹시 실수를 발견하시면 댓글로 알려주시면 감사드리겠습니다 :)

 

CH04 단변량분석_숫자형 변수 (이어서)

시각화_숫자형 변수

3) Box Plot

- plt.boxplot(): 반드시 NaN (결측치)를 제외해야 함!

- vert 옵션 (vertical)으로 횡(False), 종(True, 기본값)으로 그래프를 그릴 수 있음

변수 = df.loc[df['Age'].notnull()]
plt.boxplot(변수['Age'])
plt.grid()
plt.show()

 

-  sns.boxplot은 NaN을 알아서 빼고 그려줌

sns.boxplot(x = df['Age'])
#sns.boxplot(x = df['Age'], data = df)
plt.grid()
plt.show()

 

 

수치화_범주형 변수

1) 범주별 빈도수

- value_counts(): 범주의 개수와 상관없이 범주 별 개수 count

df['열 이름'].value_counts()

 

2) 범주별 비율

df['열 이름'].value_counts(normalize = True)

 

 

 

시각화_범주형 변수

1) bar chart: seaborn의 countplot 활용

plt.countplot은 집계 + bar plot을 한꺼번에 해결해줌!

# sns.countplot(x=df['범주 열 이름'])
sns.countplot(x='범주 열 이름', data=df)
# sns.countplot(y='범주 열 이름', data=df)   # 가로형, 세로형 구분을 x=, y=로 함
plt.grid()
plt.show()

 

2) pie chart

- plt.pie(값, labels= 범주이름, autopct = '%.2f%%' : 범주별 비율 비교 시 파이차트 사용

- .2f%: 소수점 두 자리 퍼센트로 표기한다는 의미

변수 = df['범주 열 이름'].value_counts()

plt.pie(변수.values, labels = 변수.index, autopct = '%.2f%%')
plt.show()