인공지능 관련 저작권 침해 소송이 줄을 잇고 있습니다. 23년 6월 캘리포니아 소재 한 로펌은 인터넷 이용자의 저작권과 개인정보를 OpenAI가 대규모로 침해했다는 이유로 OpenAI를 상대로 집단 소송을 제기했습니다. 이 집단 소송장은 OpenAI의 데이터 사용에 대한 보상을 요구합니다. 소송장에 따르면 위키페디아 게시글, 소셜 미디어 게시물, 블로그 포스트 및 기타 여러 텍스트를 포함한 인터넷의 수많은 데이터를 사용하여 OpenAI는 ChatGPT를 학습시키고 있습니다. 그러나 이러한 텍스트 및 콘텐츠 작성자는 AI를 학습시키는 데 (자신의?) 데이터를 사용한 것에 대한 보상을 받은 적이 없습니다. 이 소송장의 논리를 따르게 되면 최근 몇 년 동안 트위터, 페이스북, 인스타그램 등 소셜 미디어에 포스트를 게시한 사실상 모든 사람이 OpenAI가 ChatGPT를 학습하는 데 사용하는 데이터에 기여했고 보상을 받을 필요가 있습니다. 만약 이 집단 소송에서 OpenAI가 패소한다면 OpenAI는 천문학적 규모의 보상금을 지불해야 합니다.

뉴욕타임스는 인공지능 기업이 자사의 기사와 이미지를 스크랩하여 인공지능 모델을 학습시키는 것을 금지하는 내용으로 서비스 약관(TOS)을 업데이트했습니다(ArsTechnica 참조). 나아가 뉴욕타임스는 OpenAI를 고소할 준비를 하고 있는 것으로 보입니다. 전문가들은 이 소송의 결과에 따라 ChatGPT의 데이터 세트가 파괴되고 침해 콘텐츠당(!) 최대 15만 달러의 벌금이 부과되는 등 OpenAI가 치명적인 타격을 입을 수 있다고 추측하고 있습니다(NPR 참조). 만약 뉴욕타임스가 OpenAI와 정말로 법적 공방을 진행한다면 이는 저작권법 관련 “가장 주목할 만한” 법적 논쟁이 될 것입니다.

인공지능은 앞으로 수백 년 아니 수천 년 동안 인류 문명을 바꿀 수 있는 중요한 기술입니다. 인쇄 및 출판 문화의 시작과 함께 오랜 진통을 겪으며 탄생한 저작권법을 인공지능에 어떻게 적용할 것인가는 매우 신중하게 판단해야할 사항입니다.

인공지능, 특히 거대언어모델(LLM)이 학습과정에서 저작권법을 침해했는지 여부를 판단하기 이전 선행되어야 할 작업은 거대언어모델에 대한 정의(definition)입니다. 현재 서구권에서는 이와 관련된 다양한 시도가 존재합니다. The Cord는 ‘인공지능과 저작권 시리즈'를 총 3회로 구성하고 여기서 복수의 인공지능, 특히 LLM의 정의를 소개하겠습니다. 그리고 이 개별 소개에는 저 개인의 생각이 많이 추가되어 있음을 알려드립니다.