시계열(Time Series)란 시간의 흐름에 따라 일정한 간격으로 기록된 데이터를 뜻한다. 실제 시간에 따라서 정의된 연간, 월간 데이터나 단어의 순서인 어순이란 개념이 존재하는 자연어 데이터 모두 시계열 데이터라 할 수 있다. 자연어 처리 영역에서 다루는 RNN, LSTM도 모두 시계열로 취급한다.
시계열 데이터는 이전 시점의 기록을 이용해서 미래의 예측을 하는 것을 목표로 하는 경우가 많다. 그 예로 근 1년간 코로나 확진자 수를 이용해서 앞으로의 동향을 예측하거나, 특정 텍스트가 있을 때 이어서 나올 문장을 예측하는 것이 있다. 이 외에도 자료의 전체적인 특성을 파악하거나, 설명 혹은 제어를 하는데 사용하기도 한다.
시계열 데이터는 크게 4가지 성분으로 나눌 수 있다.
추세성분 (Trend)
데이터의 장기적인 변화를 나타낸다. 인구 증가 추세, 자살률 감소 추세 등이 예시이다. 주로 시간에 대한 다항식으로 설명된다.
계절성분 (Seasonal)
1년을 단위로 보는 단기 변동요인이다. 주기에 따라서 순환하는 특징이다. 난방요금이 특정 계절에 높아지는 것이 이에 대한 예시이다.
순환성분 (Cycle)
2년에서 10년 정도의 주기를 가지고 순환하는 중기 변동요인이다. 시간에 흐름에 따라서 상하로 반복되는 경우가 많다. 경제 순환의 흐름이 이에 대한 예시이다.
불규칙성분 (Irregular)
위 세가지 요인과 다르게 불규칙적으로 설명되는 요인이다. 이 성분이 많으면 예측력이 떨어진다고 할 수 있다. 잡음(Noise)이라고 부르기도 한다.