AI 뉴스 저작권, 보상과 상생을 위한 제안과 아이디어

이성규

2024년 11월 27일

들어가는 말

공정이용에 대한 논의는 거의 저물어 가는 듯합니다. 해당 논리를 고수할 것이라면 오픈AI를 비롯한 다수의 AI 관련 기업들이 61건의 딜, 384개 뉴스 브랜드와의 계약 체결을 진행하지 않았을 겁니다. 이는 네이버 또한 분명히 인지하고 있을 것이라고 보고 있습니다. 이에 대한 법리적 논의가 불필요한 것은 아니지만, 임박한 언론사들의 재무적 사정을 감안하면 빠르게 딜을 추진하고 이에 대한 보상을 받도록 하는 방안이 우선될 필요가 있습니다.

따라서 현재 시점에서는 저작권 침해, 공정이용 등의 논의를 넘어서야 합니다. (AI 기업들은 저작권 침해를 인정해야 한다는 차원에서입니다.) 더 급박한 건 뉴스를 AI 서비스를 위해 이용하는 다양한 방식과 유형을 구분하고(모델 학습, RAG용 벡터임베딩, 단순 인덱싱 등) 각 용도별로 차등화한 보상 제안을 해야 한다는 의미입니다. 보상책은 원칙을 지닌되 유연해야 한다고 생각합니다.

사업자 분류하기

	자사 모델 학습 용도	벡터임베딩 용도 (RAG-AI Search)	인덱싱 용도 (Term-Search)	기타 용도 (SV-fine tuning)
오픈AI	V	V	?(bing)
Bing	V	V	V
네이버	V	V	V
구글(overview)	V	V	V
Perplexity		V	V
뤼튼		V	V

언론사에 드리는 요청

크롤봇 차단이 곧 정책이고 입장 : Robots.txt는 프로토콜이자 메시지입니다. AI 개발사들은 이러한 프로토콜에 따라 뉴스를 수집하고 저장합니다. 이는 국제적인 프로토콜입니다. 하지만 다수의 국내 언론사들은 일부 크롤링 봇(OAI 봇)을 차단하지 않고 오픈AI 등이 보상해줄 것을 기대합니다. 이는 어불성설이 될 수 있습니다. 크롤링을 허용하는 규약을 채택하고 약관에 명시하지 않으면서 이에 대한 보상을 요구하는 것은 앞뒤가 맞지 않는 행위로 인식될 수 있습니다. 실질적인 보상을 기대한다면 먼저 차단 조치에 대한 일관된 입장을 robots.txt로 표현할 필요가 있습니다.
구체적인 피해를 입증하기 위해 준비하기 : Raw Story Media 판결에서 보듯 구체적이고 특정한 피해 혹은 미래 임박한 피해를 입증하지 못하면 소송에서 패소할 수 있습니다. 그리고 그 피해의 입증책임은 언론사들에게 존재합니다. 소송을 준비한다면 피해 사실을 명확히 수집하고 그것의 피해 규모를 산정해 두는 것이 필요합니다.

뉴욕타임스 : Wirecutter 추천을 효과적으로 재현하는 상세한 합성 검색 결과는 사용자가 원본 소스로 이동하려는 동기를 감소시킵니다.(뉴욕타임스 소장 중 일부)

2023년 최고의 무선 스틱 청소기에 대한 Wirecutter의 기사에 대한 질문에도 비슷한 반응을 보였는데, Wirecutter가 추천한 3가지 청소기를 모두 정확하게 인용하고 기사의 첫 문단을 상당 부분 직접 복사하여 재생산했습니다.(뉴욕타임스 소장 중 일부)

개인이 비용을 지불하지 않고 더 타임스의 페이월을 거치지 않고도 피고의 자체 제품을 통해 더 타임스의 매우 가치 있는 콘텐츠에 접근할 수 있다면, 많은 사람들이 그렇게 할 것입니다.(뉴욕타임스 소장 일부)

저장소에 포함된 정보의 양을 고려할 때, ChatGPT가 원고의 문서에서 표절된 콘텐츠를 출력할 가능성은 희박해 보입니다. 그리고 원고는 이전 버전의 ChatGPT가 상당한 양의 표절 콘텐츠를 포함하는 응답을 생성했다는 제3자 통계를 제공하지만(갑 제5호증), 원고는 현재 버전의 ChatGPT가 원고의 기사 중 하나를 표절한 응답을 생성할 '상당한 위험'이 있다고 그럴듯하게 주장하지 않았습니다.(Raw Media 판례)

보상 규모에 대한 판타지 벗어나기 : 오픈AI가 2024년 5월22일 뉴스 코퍼레이션과 약 15개 브랜드 5년 한정 체결한 라이선스 계약금액은 2억5000만 달러(3500억원)입니다. 연간 700억원 규모입니다. 이는 각 브랜드당 연간 47억원 규모입니다. 모델 학습, 학습 대상의 모델수, AI 검색 사용, 기간 등 모든 용도로 사용하는 걸 허락하는 조건입니다. 이를 품질과 용도, 브랜드 파워별로 구분하면 기대만큼의 수익을 얻기는 어려울 수도 있습니다.
모델 업데이트의 속도를 이해하기 : 거대언어모델이 업데이트 될수록 뉴욕타임스와 같은 역류 현상 발생 가능성이 희박해지고 있습니다. 사실상 동일 학습 문서의 뱉어내기로 소송을 걸기는 어려워진 상황입니다. 따라서 이를 근거로 소송문을 작성하기 쉽지 않다는 점을 이해할 필요가 있습니다.

모델 개발/AI 검색 기업에 드리는 요청

모델 개발사는 공정이용에 대한 환상 벗어나기: 현재 진행되는 오픈AI 관련 소송을 보면, 사실상 공정이용의 범위를 넘어선다는 쪽으로 진행되고 있는 것으로 보입니다.(보수적으로 봐도 공정이용 논리가 모든 언론사에 동일하게 적용되기는 쉽지 않아 보입니다.) 이 논리에 기대하고 보상에 대한 고민을 하지 않는다면 오히려 더 큰 피해를 입을 수 있다는 것을 인식할 필요가 있습니다. 특히 도덕적 비판에서 자유로울 수 없으며 이로 인한 브랜드 신뢰의 추락 또한 감당해야 합니다. 현재 오픈AI의 경우 뉴욕타임스와의 소송에서 각 모델별 학습 데이터에 대한 접근권을 열어주고 검증을 받는 상황임을 이해해야 합니다.
임베딩할 권리는 저작권자에게 있다: 그것이 모델 학습에 사용하건, HybridRAG 등에 사용하건 뉴스의 임베딩 권한은 저작권자에게 존재한다는 인식해야 합니다. 저작권의 복제권을 확장한 개념으로 ‘임베딩 권리’는 해당 뉴스 생산자 집단에게 귀속된다는 점을 이해해야 합니다. 허락 없는 임베딩은 저작권에 위배될 수 있다는 위험을 인정할 필요가 있습니다.
고품질 데이터의 shortage 인정하기 : 모델의 스케일링이 더이상 어렵다는 게 공통적인 의견입니다. 추론 강화로 방향이 전환되는 흐름입니다. 스케일링의 여지가 있다면 그것은 검증된 양질의 고품질 데이터 세트 덕일 겁니다. 뉴스에 대한 보상은 양질의 저널리즘 데이터를 생산하는데 기여할 수 있다는 점을 기억할 필요가 있습니다.
용도 및 멀티 모달에 대한 다양한 보상 방안에 대한 제안 : OpenAI를 비롯해 Prorata, Perplexity, Meta와 Microsoft에 이르기까지 보상 없는 뉴스 사용은 더이상 유효하지 않습니다. 수익 공유, 뉴스 실험 등의 명목으로 언론사에 대한 보상책을 다양하게 제공 중입니다. 사용 용도별로 미리 보상책에 대한 기본 설계를 해 두는 것이 필요해 보입니다. 허락없이 사용하는 시점이 이미 지나갔다는 점을 인식해야 합니다.

끝으로

이제 저작권 위반 또는 보상에 대한 규범적 논의에서 벗어나야 할 시점입니다. 이미 1년 이상 이 논의에만 집중해왔습니다. 그동안 환경이 변화했고 보상책에 대한 다양한 시도들이 이어지고 있습니다. 보상과 관련한 현실적 제안과 협상이 진행돼야 할 시점입니다. 이를 위해 다음을 제안드리고자 합니다.

양질 저널리즘의 정의를 구체화하자 : 언론사가 생산한 모든 뉴스가 저작권성을 지니고 있고 그것이 위키피디아보다 양질이라는 레토릭에서 벗어나야 합니다.(위키피디아 이상 품질 기사는 전체 기사의 10% 남짓으로 봅니다) 저작권성을 확증/입증할 수 있는, 보상 가능한 저널리즘의 품질을 정의하고 제안해야 합니다. 원본성의 증명, 인간의 작성, 오리지널 여부, 심층성 등을 계량화할 수 있는 수치 등을 포함해 이를 보호의 범위에 두고 용도에 따른 보상 가액을 산정할 수 있어야 합니다. 필요할 경우 양질의 저널리즘은 더 높은 가격을 협상을 진행할 필요가 있습니다. 참고로 뉴욕타임스는 특허청에 저작권 등록이 된 수백만 건의 목록을 증거 자료로 제시했습니다.
저널리즘 가치 보호를 위한 생산적 보상의 방식 제안 : 보상을 해야 한다는 당위론을 넘어 논의를 진척시켜야 시점이라고 생각합니다. 다양한 용도에 대한 보상은 피할 수 없는 흐름이라고 보고 있습니다. 문제는 어떤 보상책을 요구할 것인지 보다 유연하게 접근하고 제안할 필요가 있습니다. 검색의 다음 스탭인 멀티모달리티를 감안하여 각 모달(포맷)별 보상 가격 체계를 분리할 필요도 있습니다. 텍스트와 이미지, 영상이 동일 보상 가격 대상일 수는 없습니다.
글로벌 사업자와의 협상을 지원하자 : 국내 AI 기업을 대상으로 한 보상은 규모가 작을 수 있습니다. 현재의 논의가 네이버만을 대상으로 하고 있다는 점은 아쉽습니다. AI 시대에 언어의 장벽 자체가 이전보다 훨씬 낮아지며 피해의 방식과 규모 또한 전세계적이라는 점을 과소평가하는 것으로 보입니다. 언어와 DB 위치의 경계가 무너져 있는 상황에서, 다양한 글로벌 사업자들에게 보상을 요구할 수 있거나 혹은 대응할 수 있는 제도적 지원 방안을 마련해야 합니다. 이를 공공 차원에서 지원하는 방안을 고민해야 할 시점입니다.
위탁/위임이 아닌 개별 언론사를 지원하자 : 이미 제기된 판례에서도 적시된 바 있듯이, 피햬의 구체성이 입증되지 않으면 보상에 대한 정당성을 주장하기 어려울 수밖에 없습니다. 언론사들은 각 사별 이해가 다르고 피해 규모나 양상이 다르며, AI 봇에 대한 입장이 다를 수 있습니다. 이를 하나의 위탁 기관이 위임해서 입증한다는 걸 현실적으로 어렵습니다.

Newsletter

디지털 시대, 새로운 정보를 받아보세요!

이성규

블루닷에이아이의 공동창업자 겸 대표이자, 더코어의 미디어 전담 필자입니다. 고려대를 나와 서울과학기술대에서 박사과정을 수료했습니다. 언론사와 다음커뮤니케이션을 거쳐, 미디어스타트업 엑셀러레이터 '메디아티'에서 이사로 근무했고 구글에서 티칭펠로, 뉴스생태계 파트너십 경험도 쌓았습니다. '트위터 140자의 매직', '혁신저널리즘'(공동저작), '사라진 독자를 찾아서', 'AI와 스타트업', 'AI, 빅테크, 저널리즘' 등을 집필했습니다.