뉴욕타임스와 오픈AI 소송 어떻게 전개되고 있는지 궁금하셨죠? 오늘 짤막하게 설명을 드리고 양쪽이 보낸 서한의 번역본을 올려놓도록 하겠습니다.
지난번까지 소개해드린 내용은 오픈AI가 증거 개시 목록으로 뉴욕타임스 기사가 원본성을 갖고 있는지 증빙할 수 있는 관련 자료를 요청한 건이었습니다. 이에 뉴욕타임스 쪽은 기자에 대한 괴롭힘이라고 반박하는 서한을 보내기도 했습니다. 이 건은 양쪽이 조정을 통해 어느 정도 합의를 한 것으로 보입니다.
이후 뉴욕타임스 쪽은 특허청에 등록된 수백 만건의 저작권 보호 기사 목록을 엑셀 파일로 제출했습니다. 링크, 제목, 바이라인 등이 모두 담겨 있었습니다. 사람이 작성했다는 걸 보여주기 위한 자료였습니다. 다시 강조하지만 무려 수백만 건이 첨부 파일로 제공됐습니다.
그 다음은 오픈AI 차례겠죠? 뉴욕타임스 쪽은 오픈AI가 개발한 각 거대언어모델별로 사용된 데이터 세트에 공개하라고 했습니다. 이를 법원 쪽이 받아들였고, 오픈AI는 이 데이터에 접근할 수 있도록 별도의 샌드박스 같은 소프트웨어를 개발했습니다. 검색 가능하도록 제공하기 위한 목적인데요.
아래 서한들은 검색의 범위 제한을 놓고 프로토콜을 합의하는 과정, 그리고 이 소프트웨어의 이용에 따른 비용 분담 요구 등을 담고 있습니다. 데이터 세트에 특별히 접근할 수 있도록 하면서, 하드웨어와 소프트웨어를 새롭게 구성했는데요, 이후 데이터 세트 접근을 위한 검사 과정에 비용이 발생할 수밖에 없는 비용을 놓고 원고인 뉴욕타임스 쪽도 분담하라고 요구한 것입니다. 이를 놓고 공방이 오가고 있는 중입니다.
현재 오픈AI 쪽은 1만5000달러에 준하는 크레이트를 뉴욕타임스 쪽에 제공하기로 하고, 그 범위를 넘어서면 다시 협의하자고 제안을 했는데요. 뉴욕타임스는 이를 받아들이기 어렵다고 강조하고 있습니다. 증거물의 검사를 위해 소용되는 비용을 원고가 부담한 전례가 없다는 이유에서라고 합니다. 게다가 8월2일에는 뉴욕타임스 쪽이 소장 변경을 위한 휴정을 요청하면서 다시 지연되기도 했습니다. 변경된 소장은 8월12일 약속대로 제출이 됐더군요. 아직 비교해 보진 않았습니다. 소송 정말 쉽지 않아 보이죠?
아직도 충분히 증거 조사는 이뤄지지 않았습니다. 일단 학습된 데이터 세트에 접근할 수 있게 됐고, 그 분량도 측정할 수 있는 기회가 열린 건 뉴욕타임스 쪽에 유리한 게 아닌가 싶습니다. 그런 와중에 오픈AI 개발자가 뉴욕타임스 등이 잠재적 증거물로 추출한 데이터를 삭제하는 어처구니 없는 사태도 발생했습니다. 모두 복구가 가능한 데이터라고는 하지만 뉴욕타임스 쪽의 불만은 커져가는 국면입니다.
아래 두 파일은 두 건의 서한을 번역한 문서입니다. 앞으로도 진전된 내용이 나오면 요약하거나 번역해서 소개해드리도록 하겠습니다.