Meta vs 실버만 '생성AI 학습데이터' 소송 판결문 번역
내용은 요약하자면 다음과 같습니다. 참고로 아래는 블루닷AI-오웰(AI 문체 변경 도구)이 니먼랩의 기사를 설명문체로 요약한 것입니다. 이 판결이 국내 언론사에 주는 시사점은 별도로 더코어에서 정리를 할 계획입니다.
첨부된 파일은 판결문 전문 번역문입니다. 이 번역문을 맥락을 이해하도록 도와드리기 위해 니먼랩 기사를 인용했음을 밝힙니다.
AI에 대한 법적 프레임워크는 실시간으로 구축되고 있으며, 사라 실버만 사건의 판결로 인해 출판사는 잠시 멈춰야 할 것입니다.
이번 여름, 코미디언 사라 실버맨이 메타의 인공지능 모델 LLaMA를 상대로 소송을 제기했을 때, 이는 상당한 관심을 끌었습니다. (물론 그것이 바로 의도된 바입니다. 실제로 실버만은 이 사건에서 세 명의 공동 원고 중 한 명이지만, '킬 시티 블루스' 작가 리처드 카드리나 '파더 가에타노의 퍼펫 카테키즘' 저자 크리스토퍼 골든에 대한 기사는 그렇게 많은 클릭을 받지 않습니다.)
하지만 지난주 연방 판사가 대부분의 소송 내용을 기각하고 남은 부분에 대해 입증할 수 있는 높은 잣대를 설정하였음에도 불구하고 큰 주목을 받지 못했습니다.
명확하게 말씀드리자면, 생성적 AI인 대규모 언어 모델(LLMs)에 대한 법적 틀은 아직 확정되지 않았습니다. 하지만 AI 회사들이 자신들의 제품으로 LLMs를 훈련시켜서 새로운 수익을 꿈꾸는 뉴스 회사들에게 좋아 보이진 않습니다. 이러한 모델들의 훈련 요소가 추가로 소송될 예정이긴 하나, 법원은 지금까지 그것들이 만들어내는 것이 저작권 침해라는 생각에 호의적으로 보지 않았습니다.
실버만의 소송 제기는 뉴스 회사들이 주장할 수 있는 것보다 한 가지 중요한 방식으로 훨씬 강력합니다. 대부분의 뉴스 콘텐츠는 출판사가 의도적으로 웹 사용자들에게 자유롭게 읽혀질 수 있도록 만듭니다. 웹브라우저를 사용하는 사람은 누구나 스토리를 검색할 수 있으며, 이 과정에서 반드시 저작권 있는 자료가 해당 장치로 다운로드됩니다. 출판사가 자신들의 콘텐츠를 웹 사용자들에게 제공한다는 것은 오픈AI나 메타 웹크롤러가 특별한 해를 입혔다고 주장하기 어렵게 만듭니다.
사라 실버만 회고록 저작권 논란, 메타의 데이터 사용은?
그러나 문제가 되고 있는 실버만의 저작권 콘텐츠는 바로 그녀의 2010년 회고록 'The Bedwetter'입니다. 중요하게도, 이것은 출판사가 웹 사용자에게 자유롭게 제공하는 컨텐츠 조각이 아닙니다. 디지털 형태로 'The Bedwetter'를 합법적으로 접근하기 위해서 하퍼콜린스(HarperCollins)는 13.99달러의 비용 지불을 요청합니다.
메타가 'The Bedwetter' 복사본을 13.99달러를 지불하여 얻었다고 할 수 없습니다. 메타는 LLM 교육 시 Books3라고 불리우는 것과 The Pile이라고 부르는 다른 것을 사용한 것으로 인정되었습니다. The Pile은 Bibliotik라고 알려진 해적 도서관에서 가져온 197,000권 서적 전문과 PubMed, GitHub, Wikipedia 및 Enron 이메일 등 다른 800GB 정도 되는 컨텐츠와 혼합된 37GB 파일입니다. 대규모 언어 모델은 작동하기 위해 방대한 양의 언어 데이터가 필요하며 The Pile은 초기 LLM 교육에서 널리 사용되었습니다.
따라서 사라 실버만의 책은 해적판 복사본을 통해 메타 교육 데이터 안으로 들어왔으며 - 많은 사람들이 분명 저작권 침해로 간주할 일입니다.(실제로 최근 The Pile은 출판사 단체에서 받아낮 삭제 요청 후 Books3를 삭제해야 했습니다.) 법적인 면에서 볼 때 출판사들 주장보다 그녀 경우가 분명 유리함을 가집니다.