School/데이터사이언스개론

Quantile-Quantile Plot(Q-Q plot)

응엉잉 2022. 4. 16. 03:14

Q-Q plot

한 데이터셋의 quantile 값들을 또 다른 데이터셋의 quantile 값들에 대해 도표화 한 것

한 쪽 축에 이론적 분포의 quantile 을 이용한다면 probability plot 과 유사

두 데이터셋이 동일한 분포의 모집단에서 표집된 것인지 확인하는 도구

+ 두 데이터셋이 동일한 위치와 변동성을 갖는지, 유사한 형태의 분포를 갖는지, 꼬리부분의 특성이 유사한지 확인 가능

 

장점

데이터셋의 크기가 동일할 필요가 없음

분포의 여러 측면을 동시에 확인할 수 있음

 - 위치의 이동

 - 변동성의 이동

 - 대칭성의 변화

 - 이상치 존재

 

Quantile 계산방법

정렬된 x 값을 0.5/n, 1.5/n, ... , (n-0.5)/n quantile 에 할당

각 계산값이 x값에 대응하는 quantile 이 됨

 

Quantile 그리기

(x값, 대응하는 quantile) 을 그래프에 표현한 후 그래프의 축을 회전시키면 Qauntile plot 이 됨

Quantile plot 은 임의의 x값에 대한 Quantile 값을 알 수 있게 해줌

 

## code

qqplot(데이터셋['feature1'], 데이터셋['feature2'])

plt.xlabel('feature1')

plt.ylabel('feature2')

 

## example

분석결과

- 두 데이터셋이 동일한 분포의 모집단에서 추출된 것으로 보이지 않음

- batch 1 의 값이 batch 2 의 값보다 유의하게 높음

- 525에서 625까지 차이가 커지며 그 다음에는 두 batch 값이 가까워짐

 

 

'School > 데이터사이언스개론' 카테고리의 다른 글

알고리즘-1  (0) 2022.04.24
Scatterplot Matrix / heatmap  (0) 2022.04.16
Bihistogram  (0) 2022.04.16
Box Plot  (0) 2022.04.16
Scatter Plot  (0) 2022.04.14