우리에게 필요한 것은 트랜스포머입니다

생성 AI 시대의 시작은 2017년 구글 연구원들의 역사적 논문 “주의만 있으면 된다(Attention Is All You Need)”입니다. 이 논문은 인간 감독없이도 대량의 데이터로 고품질 AI 모델을 학습시킬 수 있는 새로운 머신러닝 기법을 담고 있습니다. 이 기법을 트랜스포머(Transformer) 모델이라고 부릅니다. 이 트랜스포머 모델을 (상용) 서비스에 최초로 적용한 것은 구글이 아니라 ChatGPT를 사용하는 OpenAI였습니다. 오늘날 가장 잘 알려진 트랜스포머 모델은 GPT-4o부터 Claude 및 Gemini에 이르는 거대언어모델(LLM)입니다. 트랜스포머는 토큰(Token)으로 구성됩니다. 토큰은 트랜스포머 모델에서 가장 작은 처리 단위입니다. 토큰은 의미의 가장 작은 단위이며, 입력 데이터를 분할하여 만들어집니다. 거대언어모델에서 이러한 작은 의미 단위는 단어, 부분 단어 또는 작은 단어 그룹입니다. 거대언어모델은 텍스트 시퀀스에서 다음 토큰을 예측하도록 훈련됩니다.

물론 토큰은 반드시 텍스트일 필요는 없습니다. AI 연구자들은 이미지, 오디오 파일, 심지어 (단백질의 기본 구성 단위인) 아미노산을 토큰화하는 방법을 찾아냈습니다. 예를 들어 GPT-4o는 각 이미지 또는 오디오 스니펫(snippet)을 토큰 시퀀스로 표현한 다음, 텍스트 토큰과 동일한 스트림에 던져 넣습니다.

시계열 데이터(Time Series Data)도 토큰화할 수 있습니다. 시계열 데이터란, 주식 가격, 환율, 금리, GDP 성장률, 실업률, 소비자 물가 지수 또는 (온도, 강수량 등) 날씨 변화, 기후 데이터, 웹사이트 방문자 수 처럼 시간의 흐름에 따라 순차적으로 관측된 데이터를 말합니다. 쉽게 말하면 시계열 데이터는 특정 변수나 현상이 시간의 경과에 따라 어떻게 변화하는지를 보여주는 데이터입니다. 이 시계열 데이터를 토큰화하여 트랜스포머 모델에 적용한 대표적 서비스는 아마존 AWS의 크로노스(Chronos)입니다. 여기서 ‘토큰화’는 시계열 데이터를 자연어(=텍스트)처럼 취급한다는 의미입니다. 이를 통해 크로노스는 시계열 데이터의 예측 정확도를 높여 다양한 산업 분야에서 활용될 수 있는 도구입니다.

트랜스포머 모델: 눈(eyes)에 보이는 것 그 이상