Q-Q plot
한 데이터셋의 quantile 값들을 또 다른 데이터셋의 quantile 값들에 대해 도표화 한 것
한 쪽 축에 이론적 분포의 quantile 을 이용한다면 probability plot 과 유사
두 데이터셋이 동일한 분포의 모집단에서 표집된 것인지 확인하는 도구
+ 두 데이터셋이 동일한 위치와 변동성을 갖는지, 유사한 형태의 분포를 갖는지, 꼬리부분의 특성이 유사한지 확인 가능
장점
데이터셋의 크기가 동일할 필요가 없음
분포의 여러 측면을 동시에 확인할 수 있음
- 위치의 이동
- 변동성의 이동
- 대칭성의 변화
- 이상치 존재
Quantile 계산방법
정렬된 x 값을 0.5/n, 1.5/n, ... , (n-0.5)/n quantile 에 할당
각 계산값이 x값에 대응하는 quantile 이 됨
Quantile 그리기
(x값, 대응하는 quantile) 을 그래프에 표현한 후 그래프의 축을 회전시키면 Qauntile plot 이 됨
Quantile plot 은 임의의 x값에 대한 Quantile 값을 알 수 있게 해줌
## code
qqplot(데이터셋['feature1'], 데이터셋['feature2'])
plt.xlabel('feature1')
plt.ylabel('feature2')
## example
분석결과
- 두 데이터셋이 동일한 분포의 모집단에서 추출된 것으로 보이지 않음
- batch 1 의 값이 batch 2 의 값보다 유의하게 높음
- 525에서 625까지 차이가 커지며 그 다음에는 두 batch 값이 가까워짐
'School > 데이터사이언스개론' 카테고리의 다른 글
알고리즘-1 (0) | 2022.04.24 |
---|---|
Scatterplot Matrix / heatmap (0) | 2022.04.16 |
Bihistogram (0) | 2022.04.16 |
Box Plot (0) | 2022.04.16 |
Scatter Plot (0) | 2022.04.14 |