[번역] NYT 소송 관련 오픈AI의 공식 반박문
[번역] NYT 소송 관련 오픈AI의 공식 반박문

저작권 위반 고소당한 오픈AI, 반박문으로 해명

아래는 현지 시각 1월8일에 공개된 오픈AI의 공식 반박문을 번역한 것입니다. 알려졌다시피 뉴욕타임스는 2023년 12월27일 오픈AI를 저작권 및 상표권 위반으로 고소를 했습니다. 69페이지에 달하는 장문의 소송문서도 공개했습니다.(소송문 번역 문서 참고) 치밀하고 다양한 사례들이 열거돼 있었기에 오픈AI 등이 대응하기가 만만하지 않다는 의견이 제기되기도 했습니다.

이런 와중에 오픈AI가 뉴욕타임스 소송문에 담긴 이슈들에 대해 조목조목 반박하는 입장을 내놓았습니다. 특히 원본 글을 뱉어내어 저작권을 위배하게 한 '역류' 문제에 대해 '드물게 발생하는 버그"라며 이를 0으로 만들기 위해 노력 중이라고 방어했습니다. 소송문과 반박문을 함께 읽어보면서 국내에서의 대응 전략을 함께 모색해 보시기를 바랍니다. [이성규 에디터]


오픈AI와 저널리즘

우리는 저널리즘을 지지하고 뉴스 기관과 협력하며, 뉴욕타임스의 소송은 실익이 없다고 생각합니다.

저희의 목표는 사람들이 손이 닿지 않는 문제를 해결할 수 있도록 지원하는 AI 도구를 개발하는 것입니다. 이미 전 세계 사람들이 일상생활을 개선하기 위해 우리의 기술을 사용하고 있습니다. 수백만 명의 개발자와 포춘 500대 기업의 92% 이상이 현재 우리 제품을 사용하고 있습니다.

저희는 뉴욕타임스의 주장에 동의하지 않지만, 이번 소송이 저희의 사업과 의도, 기술 개발 방식을 명확히 밝힐 수 있는 기회라고 생각합니다. 저희의 입장은 다음 네 가지로 요약할 수 있으며, 이를 아래에 자세히 설명하겠습니다:

  • 우리는 언론사와 협력하며 새로운 기회를 창출하고 있습니다.
  • 훈련은 '공정이용'이지만, 옵트아웃 기능을 제공합니다. 그것이 바람직한 일이기 때문입니다.
  • '역류(Regurgitation)'는 드물게 발생하는 버그로, 이를 제로화하기 위해 노력하고 있습니다.
  • 뉴욕타임스는 전체 이야기를 전하지 않습니다.

뉴스 조직과 협력하여 새로운 기회를 창출합니다.

저희는 뉴스 조직을 지원하기 위해 기술 설계 과정에서 많은 노력을 기울이고 있습니다. 수십 개의 언론사뿐만 아니라 뉴스/미디어 연합과 같은 선도적인 업계 단체와도 만나 기회를 모색하고, 우려 사항을 논의하며, 솔루션을 제공하고 있습니다. 저희는 배우고, 훈련하고, 피드백을 듣고, 적응하는 것을 목표로 합니다.

우리의 목표는 건강한 뉴스 생태계를 지원하고, 좋은 파트너가 되며, 상호 이익이 되는 기회를 창출하는 것입니다. 이를 염두에 두고 이러한 목표를 달성하기 위해 뉴스 조직과의 파트너십을 추구해 왔습니다:

  • 방대한 양의 공공 기록 분석 및 기사 번역과 같이 시간이 많이 소요되는 작업을 지원하여 기자와 편집자에게 혜택을 주고 지원하기 위해 제품을 배포합니다.
  • 공개되지 않은 추가 역사적 콘텐츠에 대한 학습을 통해 AI 모델에 세계에 대한 정보를 학습시킵니다.
    ChatGPT에서 어트리뷰션이 포함된 실시간 콘텐츠를 표시하여 뉴스 퍼블리셔(언론사)가 독자와 소통할 수 있는 새로운 방법을 제공합니다.
  • AP 통신, 악셀 슈프링어, 아메리칸 저널리즘 프로젝트, 뉴욕대학교와의 초기 파트너십을 통해 이러한 접근 방식을 엿볼 수 있습니다.

훈련은 공정 이용에 해당하지만, 그것이 바람직한 일이기에 옵트아웃 기능을 제공합니다.

공개적으로 이용 가능한 인터넷 자료를 사용하여 AI 모델을 학습시키는 것은 공정 이용에 해당하며, 이는 오랫동안 널리 인정된 판례에 의해 뒷받침됩니다. 이러한 원칙은 크리에이터에게 공정하고, 혁신가에게 필요하며, 미국의 경쟁력에 매우 중요하다고 생각합니다.

최근 미국 저작권청에 의견을 제출한 다양한 학계, 도서관 협회, 시민단체, 스타트업, 미국의 주요 기업, 크리에이터, 작가 등이 AI 모델 학습이 공정 이용으로 허용된다는 원칙을 지지하고 있습니다. 유럽연합, 일본, 싱가포르, 이스라엘을 비롯한 다른 지역과 국가에서도 저작권이 있는 콘텐츠에 대한 학습 모델을 허용하는 법률이 있으며, 이는 AI 혁신, 발전 및 투자에 유리합니다.

하지만 우리에게 이러한 법적 권리는 좋은 시민이 되는 것보다 덜 중요합니다. 우리는 퍼블리셔를 위한 간단한 옵트아웃 프로세스(2023년 8월 뉴욕타임스가 채택)를 제공하여 우리의 도구가 퍼블리셔의 사이트에 접근하지 못하도록 하는 데 있어 AI 업계를 선도해 왔습니다.

'역류'는 드물게 발생하는 버그로, 이를 제로화하기 위해 노력하고 있습니다.

우리의 모델은 새로운 문제에 적용하기 위해 개념을 학습하도록 설계되고 훈련되었습니다.

암기는 학습 과정에서 드물게 발생하는 오류이지만, 학습 데이터에 특정 콘텐츠가 두 번 이상 나타나는 경우(예: 여러 공개 웹사이트에 해당 콘텐츠의 일부가 나타나는 경우)가 더 흔합니다. 따라서 의도치 않은 암기를 제한하고 모델 출력의 역류를 방지하기 위한 조치를 마련했습니다. 또한 우리의 사용자들이 책임감 있게 행동할 것을 기대합니다. 의도적으로 모델을 조작하여 역류토록 하는 것은 적절한 기술 사용이 아니며 사용 약관에 위배됩니다.

인간이 새로운 문제를 해결하는 방법을 배우기 위해 폭넓은 교육을 받는 것처럼, 저희는 AI 모델이 모든 언어, 문화, 산업을 포함한 전 세계의 다양한 정보를 관찰할 수 있기를 바랍니다. 모델은 방대한 인간 지식의 집합체에서 학습하기 때문에 뉴스를 포함한 특정 분야 콘텐츠는 전체 학습 데이터의 극히 일부분에 불과하며, 뉴욕타임스를 포함한 단일 데이터 소스는 모델의 의도된 학습에 중요하지 않습니다.

뉴욕타임스는 전체 이야기를 전하지 않았습니다

뉴욕타임스와의 논의는 지난해 12월 19일에 있었던 마지막 커뮤니케이션을 통해 건설적으로 진행되고 있는 것처럼 보였습니다. 이 협상은 ChatGPT의 어트리뷰션을 통한 실시간 표시와 관련된 높은 가치의 파트너십에 초점을 맞추었으며, 이를 통해 뉴욕타임스는 기존 및 신규 독자와 소통할 수 있는 새로운 방법을 얻고, 우리 사용자들은 뉴욕타임스의 보도에 액세스할 수 있게 됩니다. 하지만 다른 단일 소스와 마찬가지로 뉴욕타임스의 콘텐츠는 기존 모델의 학습에 의미 있는 기여를 하지 못했으며 향후 학습에도 충분한 영향을 미치지 못할 것이라고 설명했습니다. 뉴욕타임스 보도를 통해 알게 된 지난 12월 27일의 소송 소식은 놀라움과 실망감을 안겨주었습니다.

그 과정에서 그들은 일부 콘텐츠의 역류 현상을 목격했다고 언급했지만, 문제를 조사하고 해결하려는 우리의 노력에도 불구하고 어떤 사례도 공유하지 않겠다며 반복적으로 거부했습니다. 지난 7월에는 의도하지 않은 방식으로 실시간 콘텐츠를 재생산할 수 있다는 사실을 알게 된 직후 ChatGPT 기능을 삭제하는 등 이 문제를 얼마나 중요하게 생각하는지 보여드린 바 있습니다.

흥미롭게도 뉴욕타임스가 유도한 역류는 여러 타사 웹사이트에 퍼진 수년 전 기사에서 비롯된 것으로 보입니다. 뉴욕타임스는 모델이 역류하도록 하기 위해 종종 긴 기사 발췌문을 포함한 프롬프트를 의도적으로 조작한 것으로 보입니다. 이러한 프롬프트를 사용할 때에도 당사 모델은 일반적으로 뉴욕타임스가 암시하는 방식으로 행동하지 않는데, 이는 그들이 모델에게 역류하도록 지시했거나 여러 시도에서 예시를 골라낸 것임을 시사합니다.

이들의 주장에도 불구하고 이러한 오남용은 일반적인 사용자 활동이나 허용된 사용자 활동이 아니며, 뉴욕타임스를 대신할 수 없습니다. 그럼에도 불구하고 저희는 학습 데이터를 역류시키려는 적대적 공격에 대한 시스템의 저항력을 지속적으로 강화하고 있으며, 최근 모델에서 이미 많은 진전을 이루었습니다.

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
작가와 대화를 시작하세요
더코어 스토어