생성AI 보상, '딜레마' 빠진 언론사를 위한 3가지 조언

11월23일, 미디어정책학회에서 짧은 발제를 했습니다. 전체 주제는 '생성형 AI 활용에 따른 뉴스콘텐츠의 저작권: 이슈와 대처방안'이었습니다. 저는 이 대주제 아래에서 '생성형 AI가 뉴스 생태계에 미칠 영향'에 대해 발표를 했습니다. 제목만 보면 좀 피해간다는 인상을 받을 겁니다. 맞습니다. 그런 목적으로 발제문을 준비했습니다. 저작권에 대한 법적, 이론적 이해 수준이 낮을 뿐더러 정책에 대한 관심도 크지 않아서입니다.

저는 기술과 사회, 수용자와의 관계를 중심으로 생성AI가 뉴스 생태계 전반에 미칠 영향에 주목하면서 몇 가지 조언을 덧붙이는 수준에서 발제를 마무리했습니다. 물론 저작권에 대한 언급을 전적으로 회피할 수는 없었습니다. 특히 기술적 변화가 가져다 줄 고품질 저널리즘의 기회에 주목하면서 제언을 담았습니다. 그 내용을 간략하게 소개하고 자료를 첨부하도록 하겠습니다.

학습 데이터 보상, 언론사의 딜레마

저는 '고품질 저널리즘의 딜레마'라고 이름을 붙였습니다. 분명 생성AI는 저널리즘의 품질을 높이는 데 기여할 수 있습니다. 탐사보도의 시간을 절약해주고, 고품질 텍스트 콘텐츠를 원하는 포맷으로 쉽게 전환하는 데 도움을 줍니다. 멀티모달로 진화하는 GPT-4V나 '블루닷AI - 오웰'이 국내에선 대표적인 사례가 될 수도 있습니다. 작업 프로세스의 효율화에도 기여할 수 있습니다. 하지만 이러한 생성AI들이 이 분야에도 높은 성능을 발휘하려면 고품질 데이터를 주기적으로 더 많이 학습할 필요가 있습니다. 바로 여기에서 언론사의 딜레마가 나타납니다.

학습 데이터에 대한 보상을 받기 위해서는 다수의 LLM 봇을 차단해야 합니다. 보상 협상을 진행하기 위한 최소한의 정책적 전제 조건입니다. 지불 여부에 따라 차별적으로 데이터를 제공함으로써 적합한 보상을 얻을 수 있기 때문이죠. 시간이 지날수록 고품질 저널리즘 데이터는 희소해 진다는 가정 하에서, 이러한 전략은 자연스럽다고 생각합니다. 아래처럼 전세계 언론사를 기준으로 LLM 봇을 차단하는 비율을 꾸준히 늘어나고 있습니다. 특히 GPTbot을 막고 있는 비율은 상위 1000개 사이트 중 3%에 이를 정도입니다.

고품질의 데이터로 학습하지 못하는 LLM은 앞으로 성능이 저하될 가능성이 있습니다. 물론 고품질 뉴스 데이터를 충분히 학습하지 않았다고 해서 당장 성능에 영향을 미치지는 않을 겁니다. 다만 정기적으로 고품질 콘텐츠를 생산하는 한 사회의 중요한 주체로서 저널리즘은 조직을 LLM 기업들이 언제까지나 외면하기는 힘들다는 것이 저의 판단입니다.

이미 다수의 LLM 기업들은 학습 데이터에 대해 보상할 의향이 있다는 태도를 보이고 있습니다. 더이상 허락 없는 보상은 보편적 질서가 되기도 어렵습니다. 그런 점에서 기회는 열렸습니다. 다만 그 규모에 대한 이견이 여전할 뿐입니다.

어찌됐든 LLM의 성능 저하는 언론사 입장에서도 바람직한 흐름은 아닙니다. 언론사 스스로도 LLM을 활용해 더 나은 콘텐츠를 제작하거나 특정 업무를 효율화해야 하기 때문입니다. 저널리즘에 특화한 모델을 공급받기 위해서라도 데이터를 제공되는 게 필요합니다. 아니면 스스로 개발해야 하는데 너무 많은 비용이 들 수 있습니다. 자체 데이터세트를 구축해 거대언어모델을 튜닝을 하면서 각 회사에 최적화할 수 있는 언론사는 전세계에 손을 꼽을 정도입니다.  자체 데이터를 통해 높은 보상을 기대하면서 묶어두기만 한다면 새로이 다가오는 기회를 잃어버릴 수도 있죠. 이것이 딜레마입니다.

고품질 뉴스 데이터의 희소 가치를 설파할 기회와 조건

언론사들이 주목해야 할 몇 가지 중요한 흐름이 있습니다. 고품질 데이터를 보유한 조직에게 유리한 조건이라고 말할 수 있습니다. 그 중 2가지만을 소개해 볼까 합니다.

(1) 고품질 언어 데이터의 고갈 :

LLM이 지속적으로 성능을 개선하기 위해서는 더 높은 품질의 데이터가 지속적으로 필요합니다. 인간도 변화하는 세상에 적응하기 위해 꾸준히 공부하지 않으면 뒤처지는 논리와 같습니다. 문제는 필요로 하는 데이터세트의 규모와 실제로 공급 가능한 데이터 스톡이 불일치한다는 것입니다. 즉 필요로 하는 데이터의 증가량보다 고품질 데이터가 쌓이는 속도가 느리다는 것이죠. Pablo Villalobos 등(2022)은 다음과 같이 말합니다.

지금까지 데이터 스톡은 학습 데이터 세트 크기보다 훨씬 느리게 증가한다는 사실을 발견했습니다(그림 3c, 4c, 5c 참조). 즉, 현재 추세가 지속된다면 데이터 스톡의 고갈은 불가피합니다. 또한 고품질 데이터 스톡은 저품질 스톡에 비해 훨씬 작습니다.

만약 이러한 가설이 들어맞는다면, 고품질 언어 데이터를 누적적으로 쌓고 관리해 온 언론사들에겐 유리한 국면이 펼쳐질 것입니다. 강조하지만 고품질 데이터를 보유한 언론사입니다. 고품질 언어 데이터의 고갈 시점을 대략 2027년 전이 될 것이라고 보고 있는데요. 그리 오래 걸리지는 않는다는 것이죠. 이 논문에서도 밝히고 있듯, 저품질 데이터가 쌓이는 속도보다 고품질 데이터가 쌓이는 속도가 더 느릴 것이라고 합니다.

(2) 다양성 데이터 부족 시 모델 붕괴 :

여러 논란들이 있긴 하지만 모델 붕괴에 대한 여러 시나리오가 계속 제기된 것은 부인하기 어려울 겁니다. 어쩌면 (1)번과 맞물려 있는 가설이긴 한데요. 저품질 데이터와 AI가 생성한 데이터만으로 학습을 하게 되면 해당 모델의 품질과 성능을 하락하게 됩니다. Shumailov 등(2023)는 모델 붕괴를 다음과 같이 정의하는데요. 잠시 들어보시죠.

정의 3.1(모델 붕괴). 모델 붕괴는 학습된 생성 모델 세대에 영향을 미치는 퇴행적 과정으로, 생성된 데이터가 결국 다음 세대 모델의 학습 집합을 오염시키고 오염된 데이터로 학습된 모델은 현실을 잘못 인식하게 됩니다. 이러한 경우를 조기 모델 붕괴와 후기 모델 붕괴라는 두 가지 특수한 경우로 구분합니다. 초기 모델 붕괴에서는 모델이 분포의 꼬리에 대한 정보를 잃기 시작하고, 후기 모델 붕괴에서는 모델이 원래 분포의 다양한 모드를 얽히게 되어 원래 분포와 거의 유사하지 않은 분포로 수렴하며, 종종 분산이 매우 작습니다. 이 과정은 시간이 지남에 따라 여러 모델을 고려한다는 점에서 이전에 학습한 데이터를 잊어버리는 것이 아니라 자신의 믿음을 강화하여 실제라고 믿는 것을 잘못 해석하기 시작한다는 점에서 치명적 망각 과정과는 다릅니다. 이 과정은 두 가지 특정 오류 원인이 여러 세대에 걸쳐 복합적으로 작용하여 원래 모델과 편차를 유발하기 때문에 발생합니다. 이 중 한 가지 오류 원인이 주된 역할을 하며, 이 원인이 없다면 이 과정은 1세대 이후에는 발생하지 않습니다.

사실 아직 모델 붕괴의 대표 사례들이 두드러지지 않아서 현실로 나타날지에 대한 여러 불확실성이 존재합니다. 모델 개발자들은 그래서 애써 신뢰하지 않으려고 하죠. 하지만 언론사 입장에서는 이러한 모델 붕괴 시나리오의 가능성이 높아질수록 자신이 보유한 데이터의 가치가 높아질 수 있다는 걸 이해할 필요가 있습니다. 고품질 데이터를 잘 관리할 경우 유익한 기회가 올 수 있다는 사실을 알아둬야 한다는 것이죠.

플랫폼 기업과 대등하게 협상하기 위한 3가지 조언

  • 허락받지 않은 학습 데이터에 대한 보상 정책 공표
  • LLM 봇 Robots.txt서 차단
  • 자체 고품질 기사 데이터 세트의 구축

등입니다. 문제는 이러한 조치들이 언론사 입장에선 몇 가지 손해를 감수해야 할 수도 있다는 것입니다. 그런 측면에서 선택이 쉽지 않다는 것도 잘 알고 있습니다. 하지만 지금 같은 이행기 국면에서 어떤 희생도 없이 새로운 이익을 얻기란 참 어렵습니다. 리더십이 그래서 중요합니다.

자세한 내용은 아래 발표 자료에 녹아있습니다. 부디 유익한 자료가 되길 바랍니다.

[발표 자료] 생성AI 보상, 언론사의 딜레마와 상생적 대안
‘Digital Business’와 ‘Media’ ‘AI’ 등을 주요 카테고리로 하는 유료구독기반의 새로운 경제 미디어입니다.

참고 문헌

  • Shumailov, I., Shumaylov, Z., Zhao, Y., Gal, Y., Papernot, N., & Anderson, R. (2023). The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv preprint arxiv:2305.17493.
  • Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M., & Ho, A. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. arXiv preprint arXiv:2211.04325.
Newsletter
디지털 시대, 새로운 정보를 받아보세요!
작가와 대화를 시작하세요 (2건)
더코어 스토어