Run Sequence Plot
데이터를 관측시간 순서대로 표시하는 그래프
Q : 위치의 이동이 있는지 / 척도(변동성)의 이동이 있는지 / 이상치가 존재하는지
code ex)
#데이터: 50 samples in mavro.csv
df_mavro = pd.read_csv(PATH+'mavro.csv')
df_mavro['Index'] = df_mavro.index
sns.lineplot(x='Index', y="Transmittance", data=df_mavro)
sns.scatterplot(x='Index', y="Transmittance", data=df_mavro)
Lag Plot
데이터셋 또는 시계열이 랜덤인지 아닌지 검사
랜덤인 데이터에서는 눈에 띄는 구조가 없어야 함
수직축: 𝑌𝑖 for all 𝑖
수평축: 𝑌𝑖−1 for all 𝑖
code ex)
# 데이터: mavro.csv
df_mavro = pd.read_csv(PATH+'mavro.csv')
df_mavro['Transmittance_plus_1'] = df_mavro.shift(periods=1)
sns.scatterplot(x='Transmittance', y="Transmittance_plus_1", data=df_mavro)
Q : 랜덤인지 / 자기상관이 있는지 / 적합한 모델은 무엇인지 / 이상치가 있는지
* 자기상관 :
연속적인 일련의 관측치들이 상관되어있을 때
or 하나의 잔차항의 크기가 이웃하는 다른 잔자항의 크기가 서로 일정한 관련이 있을 때 일어나는 현상
Patterns of Lag Plot
1. Random
-> 데이터가 랜덤, 자기상관이 보이지 않음, 이상치 없음
2. 중간 정도의 자기상관
-> 양의 자기상관관계를 가지는 자기회귀모델로부터 나온 데이터, 이상치 없음
3. 강한 자기상관관계 및 자기회귀 모델
-> 강한 양의 자기상관관계를 갖는 자기회귀모델로부터 나온 데이터, 이상치 없음
-> 자기회귀모델의 파라미터 추정 ( 𝑌𝑖 = 𝑤0 + 𝑤1𝑌𝑖−1 + 𝑒𝑖)
4. 정현파 모델과 이상치
-> 데이터가 1사이클 정현파 모델로부터 나옴, 이상치 3개 발견
-> 스펙트럼 플롯을 이용해 숨어있는 싸이클 진동수를 구하여 다음단계의 비선형 모델에 이용
-> 이상치 제거
-> 비선형 모델을 데이터셋에 적합시키기
'School > 데이터사이언스개론' 카테고리의 다른 글
Box Plot (0) | 2022.04.16 |
---|---|
Scatter Plot (0) | 2022.04.14 |
Histogram (0) | 2022.04.14 |
Probability Plot / Normal Probability Plot (0) | 2022.04.14 |
skewness(왜도) / kurtosis(첨도) (0) | 2022.04.14 |