School/데이터사이언스개론

Run Sequence Plot / Lag Plot

응엉잉 2022. 4. 14. 22:13

Run Sequence Plot

데이터를 관측시간 순서대로 표시하는 그래프

Q : 위치의 이동이 있는지 / 척도(변동성)의 이동이 있는지 / 이상치가 존재하는지

code ex)

#데이터: 50 samples in mavro.csv

df_mavro = pd.read_csv(PATH+'mavro.csv')
df_mavro['Index'] = df_mavro.index
sns.lineplot(x='Index', y="Transmittance", data=df_mavro)
sns.scatterplot(x='Index', y="Transmittance", data=df_mavro)

 

Lag Plot

데이터셋 또는 시계열이 랜덤인지 아닌지 검사

랜덤인 데이터에서는 눈에 띄는 구조가 없어야 함

수직축: 𝑌𝑖 for all 𝑖

수평축: 𝑌𝑖−1 for all 𝑖

code ex)

# 데이터: mavro.csv

df_mavro = pd.read_csv(PATH+'mavro.csv')
df_mavro['Transmittance_plus_1'] = df_mavro.shift(periods=1)
sns.scatterplot(x='Transmittance', y="Transmittance_plus_1", data=df_mavro)

Q : 랜덤인지 / 자기상관이 있는지 / 적합한 모델은 무엇인지 / 이상치가 있는지

 

* 자기상관 :

연속적인 일련의 관측치들이 상관되어있을 때

or 하나의 잔차항의 크기가 이웃하는 다른 잔자항의 크기가 서로 일정한 관련이 있을 때 일어나는 현상

Patterns of Lag Plot

1. Random

-> 데이터가 랜덤, 자기상관이 보이지 않음, 이상치 없음

 

2. 중간 정도의 자기상관

-> 양의 자기상관관계를 가지는 자기회귀모델로부터 나온 데이터, 이상치 없음

 

3. 강한 자기상관관계 및 자기회귀 모델

-> 강한 양의 자기상관관계를 갖는 자기회귀모델로부터 나온 데이터, 이상치 없음

-> 자기회귀모델의 파라미터 추정 ( 𝑌𝑖 = 𝑤0 + 𝑤1𝑌𝑖−1 + 𝑒𝑖)

 

4. 정현파 모델과 이상치

-> 데이터가 1사이클 정현파 모델로부터 나옴, 이상치 3개 발견

-> 스펙트럼 플롯을 이용해 숨어있는 싸이클 진동수를 구하여 다음단계의 비선형 모델에 이용

-> 이상치 제거

-> 비선형 모델을 데이터셋에 적합시키기

'School > 데이터사이언스개론' 카테고리의 다른 글

Box Plot  (0) 2022.04.16
Scatter Plot  (0) 2022.04.14
Histogram  (0) 2022.04.14
Probability Plot / Normal Probability Plot  (0) 2022.04.14
skewness(왜도) / kurtosis(첨도)  (0) 2022.04.14