이 글의 미래 가치는 큽니다. 인공지능이 만든 글이 아니라 인간이 쓴 글이기 때문입니다. The Core에 백 만개(😢) 이상의 글이 쌓인다면 The Core는 인공지능 학습 데이터로도 가치가 있을 것입니다.
데이터의 중요성은 지난 10년간 명백해졌습니다. 광고를 기반으로 하는 비즈니스 모델은 개인 맞춤형 광고 제공을 가능하게 하는 방대한 양의 데이터에 의존하고 있습니다. 때문에 검색 엔진 및 소셜 미디어 플랫폼들은 상상을 초월하는 양의 데이터를 축적해 왔습니다. 이 기업들은 사용자의 취향과 행동 패턴을 분석하여 이를 바탕으로 한 광고 비즈니스로 막대한 돈을 벌어들이고 있습니다.
AI의 폭발적 발전에 힘입어 데이터의 가치와 패러다임이 새롭게 정립되고 있습니다. 광고를 위한 사용자 데이터가 아닌 AI 학습 데이터가 중요해지고 있습니다. OpenAI, 구글, 메타 등의 거대언어모델은 크롤링을 명시적으로 막고 있는 사이트를 제외하면 거의 모든 데이터를 인공지능 학습 데이터로 활용하고 있습니다. Scientific American에 따르면 개인정보 등 민감한 데이터가 AI 학습 데이터로 활용되고 있습니다. 저작권은 어떨까요? Axios의 분석처럼 저작권은 OpenAI, 구글, 메타 등에게 부차적인 문제일 뿐입니다.
지난 몇 년 사이 (학습) 데이터에 대한 갈증은 크게 증가했습니다. 거대언어모델의 학습에 사용되는 데이터 단위는 토큰(token)입니다. 언어마다 차이는 있지만 토큰은 일반적으로 (띄어쓰기로 구분된) 단어입니다. 2019년 GPT-2의 경우 15억 개의 토큰을 학습용으로 사용했습니다. 2020년에 등장한 GPT-3은 3,000억 개의 토큰으로 학습되었습니다. GPT-4의 학습에는 수조 개의 토큰이 사용되었습니다.
여기에 문제가 있습니다. 월드와이드웹이 아무리 성정하여도 ‘고품질(!)’ 콘텐츠는 그 수량이 한정되어 있기 때문입니다. 양질(!)의 학습 데이터 없이는 거대언어모델 대부분은 불완전한 정보(hallucination)를 반복해서 만들어내기 마련입니다. 이 때문에 Reddit과 WordPress가 (학습) 데이터 자원을 활용해 수익 창출에 나서기 시작했습니다. 그런데 Reddit과 WordPress는 지난 10여년 넘게 열심히 포스팅과 블로깅 활동을 해온 수 많은 이용자로부터 별도의 ‘동의 없이' 자사 아카이브에 대한 (데이터 판매) 라이선스를 가지고 있습니다. 한편 악셀 스프링거(Axel Springer), AP 등은 OpenAI에 학습 데이터를 판매하고 있고 BBC 또한 학습 데이터 판매를 준비하고 있습니다. Adobe는 학습용 동영상 데이터에 분당 3달러를 지급하고 있습니다. 블룸버그 보도처럼 학습 데이터 판매는 새로운 수익 창출 방식으로 주목받고 있습니다.