선형 보간법(Linear interpolation)
선형 보간법은 통계적으로 이미 구해진 데이터들로부터 t시점과 t+1시점 사이의 값을 유추하는 형태를 의미한다.
선형 보간법 외에도 비선형, 스플라인 보간법 등 다양한 보간법이 존재한다.
비선형 보간법은 선형 함수가 아닌 비선형 함수를 근사 함수로 사용하는 것을 의미하고, 스플라인(Spline) 보간법은 전체 구간을 근사하는 것이 아닌, 소구간으로 분할하여 보간하는 방법을 의미한다.
노이즈(Noise)
노이즈는 잡음을 의미하며, 의도하지 않은 데이터의 왜곡을 불러오는 것을 의미한다. 시계열 데이터에서 노이즈를 제거하는 방법을 Denosing 이라고 한다.
- Moving Average - 평균값으로 관측치를 대체하는 방식으로 이상하게 튀는 값을 평할화할 수 있으며 노이즈가 적은 환경에서 효과적이다.
- Gaussian Filtering
- Bilateral Filter - 가우시안 필터링의 단점인 경계성이 뭉개지는 현상을 보완
- Kalmal Filter - 잡음이 포함된 과거 측정값에서 현재 상태의 결합분포를 추정하는 알고리즘이다. 어떠한 정보가 있을 때 해당 데이터는 mixture 모델임을 가정한다(= 다른 분포들의 결합). 일반화된 분포를 가정하는 것이 아닌 데이터의 특징에 맞는 분포를 모델링할 수 있어 상당히 많이 사용된다.
시계열 데이터에서 전처리하는 방법
Time series model
LSTM
LSTM은 RNN의 한 종류로, RNN의 장기 의존성 문제를 해결하기 위해서 나온 모델이다.
→ 과거 데이터를 고려하여 미래 데이터를 예측하기 위해 나온 모델