NYT-오픈AI '기사 원본성 입증' 논쟁의 교훈

시작부터 심상치 않습니다. 장기전을 예고하는 징후로 읽어야 할까요? 본질부터 파고드는 전략을 오픈AI가 구사하고 있습니다. 소송 전부터 예상했던 갈등 요소 중 하나는 저작물의 정의와 인정되는 기사의 규모가 얼마나 되느냐였습니다. 저작권 발생의 중요한 요소인 창작성, 독창성을 갖춘 기사와 아닌 것을 구분하는 것이죠

이성규

2024년 7월 11일

양쪽의 대립 지점과 반박

양쪽의 대립 지점을 보다 이해하기 쉽도록 아래와 같이 표로 만들어서 정리를 해봤습니다. 양쪽의 입장문을 항목별로 나눠 요약한 것입니다. 가급적 전문을 모두 읽어보시길 바랍니다. 번역된 자료는 추후 더코어 자료실에 올려두도록 하겠습니다.

오픈AI 요청	뉴욕타임스의 반박
창작물의 출처 입증 기자 노트, 인터뷰 메모, 인용된 자료의 기록 또는 기타 파일 제출해야	뉴스 수집 프로세스와 독창성과는 별개 출처를 90% 인용한 것이라 하더라도 저작권은 보호된다
사람이 창작한 콘텐츠인지 자료 요청 표현적이고 독창적이며 인간이 저작한 콘텐츠와 그렇지 않은 콘텐츠를 판단하기에 충분한 문서 요청	대부분의 뉴욕타임스 저작물은 생성 인공지능 제품이 개발되기 전에 작성됐다는 점에서 터무니 없는 주장
소유권 분쟁 저작권 침해 및 표절 혐의, 문제가 되는 저작물의 소유권에 대한 분쟁 등과 관련된 문서 요청	분쟁이 아닌 준사법적, 사법적 판단이 내려진 경우 이를 제출하기로 합의
저작권 등록 문제가 된 저작물과 관련하여 뉴욕타임스와 저작권청 간의 서신	저작권청이 발행한 저작권 등록 증명서를 생성하는 데 이미 동의

보시다시피, 오픈AI는 크게 두 가지 카테고리(저작권이 있는 저작물의 여부를 확인하기 위한 자료, 저작물의 등록 및 소유권을 확인할 수 있는 증거 자료)에서 4가지 자료를 요청했습니다. 만약 이것이 수십만 건 기사에 해당한다면 인간이 분류하고 정리할 수 있는 수준인지에 대해 의구심을 자아낼 정도의 분량입니다.

오픈AI가 GPT 모델을 학습시키기 위해 50년 전의 뉴욕타임스 기사를 동의를 받지 않고 긁어갔고, 뉴욕타임스는 50년 전의 기사를 저작권 침해 대상에 포함시켰다고 가정해 보시기 바랍니다. 이 경우 50년 전 기사 작성을 위해 기자들(지금은 사망했을지도 모를)이 남겨두었던 기자 노트, 메모 등으로 독창성을 입증해낸다는 게 현실적으로 가능할까요? 그리고 매 건마다 관련 근거 자료를 찾아내 기사와 매핑하여 제출한다는 게 실현 가능할까요? 심지어 저작권의 핵심 요건 중 하나인 '사람이 작성했는지 여부'를 판단하기 위해 인간이 저작한 부분과 아닌 부분을 구분하는 작업은 또 어떨까요?

"뉴스 수집 프로세스의 독창성 인정은 별개"라고 반박하고 있습니다. 즉 뉴스 수집 정도나 근거에 의해서 뉴스의 저작권이 보호되는 것이 아니라는 논리죠. 판례를 인용해 특정 출처의 90%를 인용한다고 하더라도 저작권은 보호가 된다고 주장합니다. 또한 기자들의 특권이랄 수 있는 정보원의 보호, 기밀 보호를 이유로 오픈AI의 요청을 받아들여서는 안된다고 강조합니다.

양쪽이 대립하면서 판사에게 호소하는 서한들은 나름의 근거들이 있습니다. 오픈AI가 저작권의 본질적 취약점을 이용해 뉴욕타임스를 공격하고 있다면 뉴욕타임스는 이전의 관례 등을 바탕으로 반박에 나서고 있습니다. 아직 소송의 본게임이 시작되기도 전부터 좁히기 어려운 견해차를 드러낸 것이라고 볼 수 있습니다. 소송이 장기화할 수밖에 없다는 사실을 읽어낼 수 있는 대목입니다.

저작권 소송, 한국과 미국의 차이

한국의 저작권법은 미국의 그것을 참고로 했기에 내용상의 차이는 크지 않다고 합니다. 하지만 배상 등을 받기 위한 절차는 적잖이 다릅니다. 미국에선 저작권 관련 법적 소송을 진행하기 위해서는 먼저 저작권청에 저작물 등록 신청을 3개월 이내에 해야 합니다. 아래 한국콘텐츠진흥원의 설명 자료를 읽어 보시기 바랍니다.

미국에서는 저작권자가 (1) 저작물 공개 후 3개월 이내에 또는 (2) 침해가 시작되기 전에 미국 저작권청에 저작물을 등록한 경우에만 법정 손해배상 및 변호사 수임료가 허용되므로 늦어도 저작물 공개 후 3개월 이내에 저작권을 등록하는 것이 좋습니다. 또한, 저작권 침해가 시작되기 전에 저작물의 저작권이 '사전 등록'되어 있고 등록이 저작물의 최초 공개 후 3개월 또는 저작권 소유자가 침해 사실을 알게 된 후 1개월 중 빠른 날짜에 이루어진 경우 법정 손해배상금 및 변호사 수임료도 청구할 수 있습니다.

반면, 한국은 별도의 등록 절차가 없더라도 저작물의 저작권을 보호받을 수 있습니다. 문제는 이러한 류의 소송이 벌어졌을 때입니다. 뉴욕타임스의 반박 논리를 보셨으면 알겠지만, 미국 저작권청이 발행한 '저작권 등록 증명서'가 방대한 저작물 증명 작업을 대신해 줍니다. 물론 오픈AI는 이것만으로는 부족하다는 입장입니다. 저작권청과 주고받은 서신까지 요구했습니다. 어찌됐든 등록 절차가 번거롭긴 하지만 한국보단 입증 절차가 다소 간단한 측면이 있습니다.

물론 한국에도 뉴스 저작권의 등록 기관이 존재합니다. 한국저작권위원회가 이를 담당합니다. 하지만 필수적인 절차는 아니죠. 다만 한국언론진흥재단이 뉴스 저작권을 신탁하여 운영하는 절차는 존재합니다.

만약 네이버가 유사한 요청을 국내 언론에 제기한다면?

결론을 맺어보도록 하겠습니다. 두 당사자간의 증거개시 절차는 아직 마무리되지 않았습니다. 법원의 판단을 기다리는 중입니다. 양쪽 주장과 요청을 얼마나 받아들여질지는 미지수입니다. 더군다나 법률적 지식이 없는 제가 이를 판단하기란 더욱 어렵습니다. 하지만 국내 언론사나 혹은 특정 기관이 네이버를 상대로 학습데이터 무단 사용에 대한 소송을 제기한다고 가정하면 미리 준비해둬야 할 것들은 파악해 볼 수가 있습니다.

(1) 저널리즘 투자에 인색하면 소송도 협상도 불리

그 첫번재는 저널리즘에 투자하는 것입니다. 보시다시피, 기술 기업들은 이러한 소송에서 큰 변수가 없는 한 저작권으로 보호받을 수 있는 저작물의 범위를 좁히고 특정하려 할 것입니다. 그래야 배상 금액도 낮아질 수 있기 때문이죠. 소송을 제기한 원고 쪽은 이를 입증할 근거가 필요합니다. 독창성과 인간저작성은 필수입니다. 보도자료의 단순 변형은 저작권으로 보호받기가 쉽지 않습니다. 불가능한 것은 아니지만 보도자료 그 이상의 창작성이 개입돼야 하죠. 아니면 공동저작물로 인정되기도 한다고 합니다.

이러한 시비에서 자유로우려면 독창성이 또렷한 자체 고품질 기사를 많이 생산하는 수밖에 없습니다. 그것의 비중이 크면 클수록 배상받을 수 있는 금액이 늘어날 것입니다. 저작권 침해 소송을 진행한다는 전제에서 말이죠. 또 한가지, 배상을 해야 하는 입장에선, 소유권 분쟁이 존재하는 모든 기사는 다 제외하려 할 것입니다. 이에 대한 대비도 필요할 텐데요. 이런 모든 걸 다 고려하더라도 언론사들은 고품질 저널리즘 생산에 소홀해서는 안될 것입니다.

배상 금액을 높이기 위해서만은 아닙니다. 소송이 아닌 콘텐츠 공급 계약을 체결하는 의사결정을 내린다고 하더라도 오리지널 보도의 총량과 신뢰 평가는 협상에서 유리하게 작용할 수가 있습니다. 그것이 AI 빅테크들의 데이터 기근 문제를 해결할 수 있는 중요한 요인 중의 하나이기 때문입니다.

(2) AI 생성 기사의 별도 관리(바이라인 등)

오픈AI는 기계가 생산한 기사와 그렇지 않은 기사를 철저하게 구분할 것을 요구하고 있습니다. 뉴스 제작에 AI 활용을 배제하고 있는 뉴욕타임스를 향해서도 입증 요구를 할 정도입니다. 인간이 작성한 기사가 아닌 경우 또한 인간의 개입이 적은 기사의 경우 저작물 보호를 받지 못할 가능성이 높다는 건 이미 잘 알고 있을 겁니다. 따라서 향후에도 소송을 통한 배상이든 콘텐츠 제공 계약이든, AI로 생성된 기사는 별도로 관리해두는 것이 필요할 것입니다. 이를 가장 편리하게 하는 방법은 AI가 개입된 기사에 AI 바이라인을 표시해 두는 것입니다.

(3) 보도자료의 창의적 재구성

보도자료에 기초한 기사도 저작권의 보호를 받을 수 있습니다. 다만 조건이 있습니다. 창의성이 가미돼야 한다는 것이죠. 기자가 단순 편집만 했거나 그대로 기사화했다면, 혹은 매우 적은 부분만 손질했다면 해당 보도자료 기사는 저작권의 보호를 받지 못할 수 있습니다.

우리 기관 관련 뉴스라 하더라도 기사의 저작권은 언론사에 귀속되므로 사전에 이용허락이 필요합니다. 보도자료나 인터뷰 기사의 기본 자료 제공자는 해당 기업(기관)이라 하더라도 기자가 자료를 가공하여 기사화하면 창의성이 가미된 저작물로 봐야합니다 . 다만 제출된 보도자료를 있는 그대로 기사화했거나 기자가 단순 편집만 했다면 허락 없이 이용할 수 있습니다. 또한 인터뷰 기사에서 기관장의 발언을 그대로 인용한 경우 , 기관장의 발언 부분만은 허락 없이 이용할 수 있습니다 . 만약 외부 기고 자(기관 및 기업 임직원, 교수 등 )가 신문에 기사를 직접 기고한 경우 , 별도의 저작권 양도계약이 없는 한 해당 기사를 작성한 외부 기고자가 저작권자가 됩니다.

소송을 제기하기로 마음 먹은 언론사라면 혹은 앞으로 소송을 제기할 확률이 높은 언론사라면 보도자료 기사의 관리가 잘 될 필요가 있긴 합니다. 아니면 그 비중을 현격하게 줄이는 것도 방법입니다. 물론 통제하기란 결코 쉽지 않습니다. AI 개입이 가장 많아지는 영역이어서 창의성 구분마저도 어려워질 수 있습니다. 결국 저작권 보호 대상 포함 여부를 입증해야 하는 책임이 따를 수 있기에 가급적이면 보도자료를 내부 기자가 작성할 경우 보다 창의성 개입의 강도를 높여두는 것이 유리할 것입니다.

(4) 취재 자료의 아카이빙 : 기자 노트, 인터뷰 메모, 인용된 자료의 기록, 파일

개인적인 견해이긴 하지만 미국 법원이 창작의 출처 입증을 요구하며 4가지 자료를 요청한 오픈AI의 주장을 인용한다면 언론계는 아노미 상태로 빠져들 수밖에 없다고 보고 있습니다. 수만 수십만 건의 기사의 원본성을 입증하기 위해 지금은 사라지거나 폐기됐을지도 모를 자료를 다시 취합해야 하고, 날려 쓴 취재노트의 자료를 하나하나 검증해야 해서입니다. 이는 현실적으로 불가능이라고 생각합니다. 뉴욕타임스가 "괴롭힘"이라고 규정한 건 과장이 아닐 것입니다.

오픈AI 입장에선, '당신이 소송을 제기했으니 우리가 학습한 자료 중에 저작물로 보호되는 걸 추려줘야 하는 거 아니냐'라고 주장할 수도 있습니다. 저작물로 인정되지 않는 뉴스까지 배상하고 싶진 않겠죠. 하지만 이를 개별 기사 단위로 입증해야 한다면 앞으로 그 누구도 감히 소송을 제기하지 못할 것입니다. 그렇다고 저작권 등록을 했으니 모든 등록된 뉴스가 저작권을 가진다라고 쉽게 단언하기도 어렵습니다. 타협이 쉽지 않은 대목이긴 합니다.

이 건을 미국 법원이 어떻게 판단할지가 무척 궁금하긴 한데요. 그럼에도 언론사들은 최악의 경우를 대비해 관련 자료를 아카이빙 해두는 것이 필요하다고 생각합니다. 인터뷰 녹음 파일부터 기자 노트의 사본에 이르기까지 스스로 디지털화해서 관리하는 방안을 강구할 필요는 있어 보입니다. 해당 기사의 원천성을 증빙할 수 있는 최소한의 자료는 남겨두는 것이 앞으로 어떤 소송에 임하건 중요해 보이기 때문입니다. 그런 측면에서 기자들의 취재 노트, 혹은 취재를 위한 수집 자료 등은 이전과는 다른 방식으로 아카이빙될 필요가 있어 보입니다.

마무리하며

앞으로도 양사의 소송 관련 소식은 계속 전달드릴 예정입니다. 그 안에서 국내 언론사에 주는 함의를 찾아내는데 집중해볼 것이고요. 결국엔 양사가 합의에 이를 것으로 보긴 합니다만, 가능만 하다면 판례를 남겨놓는 것도 글로벌 언론산업을 위해 도움이 되지 않을까 싶습니다. 막대한 소송 비용을 감당할 수만 있다면 말이죠.

Newsletter

디지털 시대, 새로운 정보를 받아보세요!

이성규

블루닷에이아이의 공동창업자 겸 대표이자, 더코어의 미디어 전담 필자입니다. 고려대를 나와 서울과학기술대에서 박사과정을 수료했습니다. 언론사와 다음커뮤니케이션을 거쳐, 미디어스타트업 엑셀러레이터 '메디아티'에서 이사로 근무했고 구글에서 티칭펠로, 뉴스생태계 파트너십 경험도 쌓았습니다. '트위터 140자의 매직', '혁신저널리즘'(공동저작), '사라진 독자를 찾아서', 'AI와 스타트업', 'AI, 빅테크, 저널리즘' 등을 집필했습니다.