내가 너무너무너무 헷갈려서 정리했다 ...
꼬리
낮은 빈도의 극단값이 존재하는 도수 분포에서의 길고 좁은 부분
left tail : 도수분포 왼쪽에 극단값이 존재right tail : 도수분포 오른쪽에 극단값이 존재
long tail = fat tail : 극단값이 (정규분포보다) 많음
short-tail = thin tail : 극단값이 (정규분포보다) 적음 = 분포가 골고루 퍼져있음
skewness(왜도)
데이터가 대칭이 아닌 정도
정규분포에 비해 얼마나 비대칭인지 나타내는 정도
skewness>0 : 완쪽으로 치우침, 분포의 꼬리가 오른쪽 = right-skewed distribution
skewness<0 : 오른쪽으로 치우침, 분포의 꼬리가 왼쪽 = left-skewed distribution
kurtosis(첨도)
분포의 꼬리가 어떻게 정규분포와 다른지 나타냄
데이터 분포에 대한 일반적인 특성 파악에 도움
꼬리에 위치한 데이터에 대해 더욱 영향을 받음
-> 중심으로부터 떨어진 데이터들이 얼마나 많은지
첨도는 큰 편차 혹은 이상치가 많을수록 큰 값을 나타냄
Leptokurtic (Lepto = skinny) : k>3
분포가 가느다랗다(skinny)
= 분포의 꼬리가 정규분포보다 두껍다(늘어진다)
= 극단적 이상치가 정규분포보다 많다
= 극단적 이상치가 정규분포보다 많기 때문에 중심으로 집중된 분포를 띌 수 있음
Platykurtic (platy = broad) : k<3
분포가 넓다(broad)
분포의 꼬리가 정규분포보다 얇다(짧다)
= 극단적 이상치가 정규분포보다 적다
= 정규분포에 비해 수치들이 고르게 퍼져있다
'School > 데이터사이언스개론' 카테고리의 다른 글
Box Plot (0) | 2022.04.16 |
---|---|
Scatter Plot (0) | 2022.04.14 |
Histogram (0) | 2022.04.14 |
Run Sequence Plot / Lag Plot (0) | 2022.04.14 |
Probability Plot / Normal Probability Plot (0) | 2022.04.14 |