시계열(Time Series)란 시간의 흐름에 따라 일정한 간격으로 기록된 데이터를 뜻한다. 실제 시간에 따라서 정의된 연간, 월간 데이터나 단어의 순서인 어순이란 개념이 존재하는 자연어 데이터 모두 시계열 데이터라 할 수 있다. 자연어 처리 영역에서 다루는 RNN, LSTM도 모두 시계열로 취급한다.

시계열 데이터는 이전 시점의 기록을 이용해서 미래의 예측을 하는 것을 목표로 하는 경우가 많다. 그 예로 근 1년간 코로나 확진자 수를 이용해서 앞으로의 동향을 예측하거나, 특정 텍스트가 있을 때 이어서 나올 문장을 예측하는 것이 있다. 이 외에도 자료의 전체적인 특성을 파악하거나, 설명 혹은 제어를 하는데 사용하기도 한다.

시계열 데이터는 크게 4가지 성분으로 나눌 수 있다.

Untitled

Time Series Component Factor