생성 AI 모델의 학습 데이터 저작권을 둘러싼 논란으로 전세계가 뜨겁습니다. 특히 언론사들은 자신들의 뉴스 콘텐츠가 허락없이 학습 데이터로 활용된 데 대해 불쾌감을 드러내고 있습니다. 지금은 불쾌감을 넘어 소송으로 번지는 형국입니다.
아시다시피 이 이슈는 미국에서 먼저 불거졌습니다. 거대언어모델을 빠르게 개발하고 학습시켜 상업화한 기술 기업들이 대부분 미국 내에 존재해서입니다. 오픈AI나 구글이 대표적입니다. 이들 기업들은 학습 데이터를 확보하는 과정에서 뉴스 데이터를 광범위하게 수집했고 허락 없이 사용을 했습니다. 하지만 이러한 사용 사례가 공정 이용에 해당한다고 방어하고 있는 상황입니다.
이에 대응하는 언론산업 진영의 논리도 단단해지고 정교해 지고 있습니다. 마치 벼루고 있었다고 느껴질 정도입니다. 오늘 번역한 문서는 미국의 신문산업을 대표하는 뉴스미디어얼라이언스(News Media Alliance)의 회답 이자 입장 문서입니다.
2019년 10월 미국의 AI 산업은 트렌스포머와 이에 기초한 BERT 모델의 탄생으로, 새로운 전기를 맞게 됩니다. 오픈AI는 같은 해 2월 GPT-2를 발표하면서 생성 AI의 성장 가능성을 확인시켜 준 시점이기도 합니다. 하지만 아직 생성 AI 혁명의 파고가 본격적으로 밀어닥치기 전이긴 합니다.
이 시점을 전후해서 미국의 특허청은 이해관계자들에게 의견을 요청하는 공문을 보내게 됩니다. 질의 대략은 다음과 같습니다.
미국 특허청("USPTO")은 인공지능("AI") 기술이 지적 재산권 법과 정책에 미치는 영향에 대한 정보를 수집하고 있습니다. 이러한 정보를 수집하는 데 도움을 얻기 위해 2019년 8월 27일, USPTO는 인공 지능 발명이 특허법 및 정책에 미치는 영향과 관련된 질문을 게시하고 서면 의견을 요청했습니다. 이러한 질문에는 지적 재산권 보호에 대한 개정이 필요한지 여부를 비롯해 다양한 주제가 포함되어 있습니다. 본 공지는 이러한 질문을 저작권, 상표권 및 기타 인공지능의 영향을 받는 지적 재산권으로 확대합니다.
이러한 요청에 응답한 개인과 기관만 수십군데가 넘습니다. 첫번째 논쟁의 시발점이 이때라고 할 수가 있을 겁니다.
이 중에서도 뉴스미디어얼라이언스(News Media Alliance)의 서면 회신문만을 번역했습니다. 예민하고 까다롭기까지 한 이 문제에 대해 신문산업 진영은 어떤 논리로 대응을 하는지를 국내 신문 산업 진영도 확인해 볼 필요가 있어서입니다. 직접 읽어보시면 알겠지만 NMA는 마치 현재를 내다보는 듯, 뉴스 데이터가 저작권으로 보호받아야 할 이유를 정밀하게 제시하고 있습니다. 예를 들면,
- 팩트는 보도의 대상인가에 대한 의견
- 비표현적 사용, 비전시적 사용 면책 논리에 대한 반박 의견
- 저작물의 변형적 사용에 대한 반박 의견
- 공정 이용이라는 기술 플랫폼의 논리에 대한 반박 의견
영문으로 12페이지 남짓한 이 문서는 지금도 NMA의 대응 논리로 인용이 되고 있습니다. 문서에 등장하는 수많은 판례들, 학습 데이터에 사용된 뉴스 데이터는 왜 보상을 받아야 하는가에 대한 법리적 근거들은 앞으로 국내 뉴스 산업 당사자들이 네이버 등 기술 플랫폼과 협상할 때 충분히 활용할 만한 가치가 있는 논리들이라고 생각합니다.
물론 구 약관에 따라 보상받는 뉴스에 대한 대가를 어떻게 봐야 할 것인가에 대해서도 힌트를 얻을 수 있는 몇몇 항목들이 있습니다. 그 부분도 눈여겨 보시길 바랍니다.
주의 : 2020년 문서라고 낡았다 보시면 안됩니다. 아래 링크를 클릭해주세요.