디지털북

[논문 번역] 기초모델과 공정이용

다운로드 기한
30일 (오늘 구매시 2024.05.20까지 이용가능)
무료 회원가
₩13,000
유료 회원가
무료
결제금액
₩13,000
GPT 등 생성 AI가 언론사 기사 표절한다면?
지난글에는 ChatGPT와 같은 생성 AI가 뉴스를 학습데이터로 사용했을 때 저작권 침해 여부를 다뤘습니다. 대략의 결론은 ‘공정 이용’(fair use) 범위에 포함될 확률이 높다는 것이었죠. 하지만 유료장벽 즉 페이월 뒤에 감춘 뉴스 콘텐츠를 허락없이 기계학습 용으로 사용할 경우 여러 측면에서 보상의 여지들이 존재한다는 걸 말씀드린 적이 있습니다. 오늘은 생성 AI가 제작한

위 글에 대한 첨부 논문입니다. 번역까지 한 이유는 간명합니다. 생성 AI가 주도하는 시대에 언론사들이 새로운 비즈니스 기회를 탐색하는데 도움이 되기 때문입니다. 특히 저작권과 관련해서 말이죠.

현재 생성 AI 개발 기업들은 학습 데이터의 획득에서부터 콘텐츠의 출력물에 이르기까지 '공정 이용'의 범주 안에서 운영하고 사업을 영위할 수 있는 방안을 찾고 있습니다. 하지만 법률적으로도 기술적으로 결코 쉬운 작업이 아닙니다. 이 과정에서 언론사가 생산한 고품질 저널리즘의 저작권을 침해할 가능성을 배제하기도 어렵습니다. 이 논문은 생성 AI 개발 기업들이 공정 이용의 범위 안에서 모델을 개발하고 배포하기 위한 전략을 제안합니다. 이는 역으로 그것의 취약점이 포함돼 있다는 의미이기도 합니다.

기술 이해가 부족하면 살짝 어렵습니다. 저 또한 번역하면서 이해하기 어려운 부분은 그냥 번역기(DeepL)에 내맡겼습니다. 그런 점에서 아쉬움이 남긴 합니다. 하지만 전체 맥락과 주요 핵심 사항을 이해하는데엔 문제는 없으리락 생각합니다.

누구에게 도움이 되는가

  • '생성 AI의 도래와 언론사의 비즈니스 기회'를 고민 중인 언론사 경영자들
  • 빅테크 생성 AI와 뉴스 저작권 침해 가능성을 연구중인 연구자
  • 언론사 내 저작권 비즈니스 담당자

번역한 부분의 목차

  1. 기초 모델과 공정 이용 1
    2.4 Natural Language Text 1
    가설 2.1: 책을 읽어주는 어시스턴트 2
    실험 2.1: 오, 이렇게나 많은 텍스트가 생성되다니! 4
    가상 2.2: 요다의 모험: 오리진 스토리 7
    가상 2.3: 몇 가지 사실 알려주기 8
    가상 2.4: 패러디 프롬프트 9
  2. 기술적 완화 9
    4.1 데이터 및 출력 필터링 12
    4.2 인스턴스 어트리뷰션 15
    4.3 차등 개인정보 보호 교육(Differentially Private Training) 16
    가설 4.1: 차등 개인정보보호로(DP) 가사 생성. 17
    가설 4.2: 차등 개인정보보호와 상표. 17
    4.4 사람의 피드백을 통한 학습 18
e11be167e647ed151a4c87350a386cb2