뉴욕타임스와 오픈AI 소송 어떻게 전개되고 있는지 궁금하셨죠? 오늘 짤막하게 설명을 드리고 양쪽이 보낸 서한의 번역본을 올려놓도록 하겠습니다.
지난번까지 소개해드린 내용은 오픈AI가 증거 개시 목록으로 뉴욕타임스 기사가 원본성을 갖고 있는지 증빙할 수 있는 관련 자료를 요청한 건이었습니다. 이에 뉴욕타임스 쪽은 기자에 대한 괴롭힘이라고 반박하는 서한을 보내기도 했습니다. 이 건은 양쪽이 조정을 통해 어느 정도 합의를 한 것으로 보입니다.
이후 뉴욕타임스 쪽은 특허청에 등록된 수백 만건의 저작권 보호 기사 목록을 엑셀 파일로 제출했습니다. 링크, 제목, 바이라인 등이 모두 담겨 있었습니다. 사람이 작성했다는 걸 보여주기 위한 자료였습니다. 다시 강조하지만 무려 수백만 건이 첨부 파일로 제공됐습니다.
그 다음은 오픈AI 차례겠죠? 뉴욕타임스 쪽은 오픈AI가 개발한 각 거대언어모델별로 사용된 데이터 세트에 공개하라고 했습니다. 이를 법원 쪽이 받아들였고, 오픈AI는 이 데이터에 접근할 수 있도록 별도의 샌드박스 같은 소프트웨어를 개발했습니다. 검색 가능하도록 제공하기 위한 목적인데요.
아래 서한들은 검색의 범위 제한을 놓고 프로토콜을 합의하는 과정, 그리고 이 소프트웨어의 이용에 따른 비용 분담 요구 등을 담고 있습니다. 데이터 세트에 특별히 접근할 수 있도록 하면서, 하드웨어와 소프트웨어를 새롭게 구성했는데요, 이후 데이터 세트 접근을 위한 검사 과정에 비용이 발생할 수밖에 없는 비용을 놓고 원고인 뉴욕타임스 쪽도 분담하라고 요구한 것입니다. 이를 놓고 공방이 오가고 있는 중입니다.
현재 오픈AI 쪽은 1만5000달러에 준하는 크레이트를 뉴욕타임스 쪽에 제공하기로 하고, 그 범위를 넘어서면 다시 협의하자고 제안을 했는데요. 뉴욕타임스는 이를 받아들이기 어렵다고 강조하고 있습니다. 증거물의 검사를 위해 소용되는 비용을 원고가 부담한 전례가 없다는 이유에서라고 합니다. 게다가 8월2일에는 뉴욕타임스 쪽이 소장 변경을 위한 휴정을 요청하면서 다시 지연되기도 했습니다. 변경된 소장은 8월12일 약속대로 제출이 됐더군요. 아직 비교해 보진 않았습니다. 소송 정말 쉽지 않아 보이죠?
아직도 충분히 증거 조사는 이뤄지지 않았습니다. 일단 학습된 데이터 세트에 접근할 수 있게 됐고, 그 분량도 측정할 수 있는 기회가 열린 건 뉴욕타임스 쪽에 유리한 게 아닌가 싶습니다. 그런 와중에 오픈AI 개발자가 뉴욕타임스 등이 잠재적 증거물로 추출한 데이터를 삭제하는 어처구니 없는 사태도 발생했습니다. 모두 복구가 가능한 데이터라고는 하지만 뉴욕타임스 쪽의 불만은 커져가는 국면입니다.
아래 두 파일은 두 건의 서한을 번역한 문서입니다. 앞으로도 진전된 내용이 나오면 요약하거나 번역해서 소개해드리도록 하겠습니다.
블루닷에이아이의 공동창업자 겸 대표이자, 더코어의 미디어 전담 필자입니다. 고려대를 나와 서울과학기술대에서 박사과정을 수료했습니다. 언론사와 다음커뮤니케이션을 거쳐, 미디어스타트업 엑셀러레이터 '메디아티'에서 이사로 근무했고 구글에서 티칭펠로, 뉴스생태계 파트너십 경험도 쌓았습니다. '트위터 140자의 매직', '혁신저널리즘'(공동저작), '사라진 독자를 찾아서', 'AI와 스타트업', 'AI, 빅테크, 저널리즘' 등을 집필했습니다.