AI 시대, 학습 데이터 고갈

강정수

2024년 4월 14일

이 글의 미래 가치는 큽니다. 인공지능이 만든 글이 아니라 인간이 쓴 글이기 때문입니다. The Core에 백 만개(😢) 이상의 글이 쌓인다면 The Core는 인공지능 학습 데이터로도 가치가 있을 것입니다.

데이터의 중요성은 지난 10년간 명백해졌습니다. 광고를 기반으로 하는 비즈니스 모델은 개인 맞춤형 광고 제공을 가능하게 하는 방대한 양의 데이터에 의존하고 있습니다. 때문에 검색 엔진 및 소셜 미디어 플랫폼들은 상상을 초월하는 양의 데이터를 축적해 왔습니다. 이 기업들은 사용자의 취향과 행동 패턴을 분석하여 이를 바탕으로 한 광고 비즈니스로 막대한 돈을 벌어들이고 있습니다.

AI의 폭발적 발전에 힘입어 데이터의 가치와 패러다임이 새롭게 정립되고 있습니다. 광고를 위한 사용자 데이터가 아닌 AI 학습 데이터가 중요해지고 있습니다. OpenAI, 구글, 메타 등의 거대언어모델은 크롤링을 명시적으로 막고 있는 사이트를 제외하면 거의 모든 데이터를 인공지능 학습 데이터로 활용하고 있습니다. Scientific American에 따르면 개인정보 등 민감한 데이터가 AI 학습 데이터로 활용되고 있습니다. 저작권은 어떨까요? Axios의 분석처럼 저작권은 OpenAI, 구글, 메타 등에게 부차적인 문제일 뿐입니다.

지난 몇 년 사이 (학습) 데이터에 대한 갈증은 크게 증가했습니다. 거대언어모델의 학습에 사용되는 데이터 단위는 토큰(token)입니다. 언어마다 차이는 있지만 토큰은 일반적으로 (띄어쓰기로 구분된) 단어입니다. 2019년 GPT-2의 경우 15억 개의 토큰을 학습용으로 사용했습니다. 2020년에 등장한 GPT-3은 3,000억 개의 토큰으로 학습되었습니다. GPT-4의 학습에는 수조 개의 토큰이 사용되었습니다.