GPT 등 생성 AI가 언론사 기사 표절한다면?

지난글에는 ChatGPT와 같은 생성 AI가 뉴스를 학습데이터로 사용했을 때 저작권 침해 여부를 다뤘습니다. 대략의 결론은 '공정 이용'(fair use) 범위에 포함될 확률이 높다는 것이었죠. 하지만 유료장벽 즉 페이월 뒤에 감춘 뉴스 콘텐츠를 허락없이 기계학습 용으로 사용할 경우 여러 측면에서 보상의 여지들이 존재한다는 걸 말씀드린 적이 있습니다.

오늘은 생성 AI가 제작한 문장과 내용(output)이 언론사 등의 저작권을 침해할 가능성을 알아보려고 합니다. 때마침 실증한 논문(Foundation Models and Fair Use)이 발표되면서 참고할 만한 사례가 많아졌습니다. 이 논문을 중심으로 가능성을 확인해 보도록 하겠습니다. 언론사 내에서 비즈니스 전략 등을 담당하는 리더라면 꼭 한번 참고해 보시길 바랍니다.

ChatGPT 등 LLM이 저널리즘과 수익 향상에 기여할 수 있는 이유
WSJ의 이용약관 위배 소송 준비 :ChatGPT의 개발사 오픈AI를 향한 언론사들의 소송 움직임이 본격화하고 있습니다. 월스트리트저널을 비롯해 CNN 등이 내부적으로 소송을 검토하고 있는 것으로 블룸버그가 보도했습니다. 이 움직임이 언론계 전반으로 확산될지는 아직 확신하기 어렵습니다만 둘 간의 새로운 관계를 구성할 모멘텀이 될 것으로 저는 보고 있습니다. 그 이유를 차근차근 설명을 드리도록 하겠습니다.

일반적으로 생성 AI가 작성한 콘텐츠가 '공정 이용'의 범위에서 벗어나는 경우는 대체로 2가지로 요약할 수 있습니다.

  1. 원본의 많은 부분을 동일 복제해서 출력할 때
  2. 원본의 적은 부분이라도 원본의 핵심 내용을 출력할 때

국내외의 판례를 통해서 대략 수렴하고 있는 공정 이용의 제한 범위라고 할 수 있습니다. 예를 들어 생성 AI가 연합뉴스의 기사를 인용하거나 소개하는 수준을 넘어서, 몇 문단을 그대로 베끼는 경우 표절에 해당할 수 있습니다. 국내 여러 언론사들의 관행처럼 해외 언론사의 기사를 추가적인 정보 없이 그대로 번역해 제시하는 경우에도 표절에 해당하게 되죠.

여기에 그치지 않습니다. 생성된 짧은 문장이라 하더라도 그것이 해당 언론사에만 존재하는 특종성 기획 기사라면 새로운 문제를 야기할 수 있습니다. 그 기사의 일부이긴 하지만 핵심을 다룬 문장을 생성하게 된다면 저작권 위반에 해당할 수도 있어서입니다.

생성 AI가 이러한 사례에 해당하게 되는 경우 아웃풋 측면에서 공정 이용의 범위를 벗어나 법리적 위험에 처할 수 있게 됩니다.  현재까지는 이러한 가능성이 없다라고 생각하는 분들이 많이 있습니다. 하지만 프롬프트 엔지니어링의 방식에 따라서 완전히 배제할 수 없다는 것이 최근 연구를 통해서 조금씩 확인되고 있습니다. 이를 감안해서 설명을 드려보도록 하겠습니다.

온도(Temperature)라는 파라미터의 역할

AI 기업 Cohere 의 기업 블로그에서 가져왔습니다. 

다시 한번 가정해 보겠습니다. 만약 생성 AI가 특정 언론사의 중요하고 차별적인 원본 보도물의 문장을 그대로  생성해 제시한다면 어떤 일이 벌어질까요? 확률상으로 매우 낮긴 하지만 불가능한 상황은 아닙니다. 생성 AI가 만들어내는 정보나 콘텐츠가 자신이 학습한 원본 문장과 동일한 경우가 발생할 수 있다는 것이죠.  

생성 AI가 원본을 그대로 토해내는 '사건'이 발생하려면 먼저 이해해야 할 개념이 있습니다. 온도(temperature)라는 하이퍼파라미터값입니다. 이 온도는 0~1.0의 값을 가지는 경우가 일반적입니다. 그리고 이 파라미터를 프롬프트 등(주로 API 단계)에서 설정함으로써 생성되는 결과값을 다르게 만들어낼 수 있습니다. 이 과정에서 원본 문서 혹은 문구와의 중복, 표절 가능성도 나타나게 되는 것이죠.

온도라는 파라미터는 a라는 단어가 있을 때 다음 단어 b를 선택하는 데 관여합니다. 거칠게 설명하면, 온도가 1에 가까울수록 창의적인 문장 구성이 가능해지는 반면, 온도값이 0에 가까울수록 전형적인 문장(상투적인?)을 만들어낼 가능성이 높아집니다. 한 개발자의 표현을 인용하면 "낮은 온도는 더 보수적이고 예측 가능한 출력을 생성하며, 높은 온도는 더 다양하고 예상치 못한 출력을 생성합니다". 이 온도가 "각 후보 토큰의 가능성을 얼마나 신뢰할지 결정"하는 파라미터이기에 그렇습니다.

위 논문에서 실험한 결과를 그대로 인용해 보겠습니다(Henderson, P., Li, X., Jurafsky, D., Hashimoto, T., Lemley, M. A., & Liang, P., 2023. p.7-8).

" 수동 프롬프트 엔지니어링은 짧은 형식의 콘텐츠에 대해서는 더 나은 추출 결과를 얻을 수 있지만, 컨텍스트 창을 초과하는 긴 형식의 콘텐츠는 현재 모델에서 그대로 역류될 가능성은 낮습니다. 이러한 샘플링 기반 프롬프트 접근 방식을 ChatGPT 모델에 대한 수동 추출 실험을 통해 확장해 봤습니다(Schulman et al.). 수작업으로 만든 프롬프트를 사용하여 작가와 제목만 포함된 프롬프트와 단 두 번의 상호작용을 통해 닥터 수스의 '오, 당신이 갈 곳!"의 전체 스토리를 추출할 수 있었습니다. 반면 인기 도서와 같은 긴 형식의 콘텐츠는 수동 프롬프트 엔지니어링을 사용하더라도 전체 내용이 그대로 역류될 가능성은 낮았습니다. ChatGPT는 해리포터와 마법사의 돌(HPSS)의 첫 3페이지를 그대로 역류해냈습니다, 하지만 그 후 내용을 의역하여 이탈한 후 결국 완전히 방향을 틀었습니다. 이는 이러한 모델의 확률적 특성과 상대적으로 짧은 컨텍스트 창, 그리고 학습 데이터에 나타나는 콘텐츠의 빈도 때문일 수 있습니다."

다시 말씀드리지만 이 온도값은 통상 해당 기초모델의 API를 통해 설정이 가능합니다. 프롬프트 엔지니어가 temperature=0.1라고 설정을 하게 된다면, 그에 따른 결과물을 내놓게 됩니다. 이 과정에서 원본과 동일한 문장을 역류해 낼 수 있다는 것입니다. 특히 그것이 단문일 경우에 동일 문장 생성 가능성은 높아진다는 것이 연구진들의 결론입니다.

OpenAI의 개발자용 도구인 플레이그라운드.

생성 AI가 언론사 기사 문장을 그대로 토해낸다면?

이제 언론사의 기사 표절 혹은 동일성 복제 문제로 넘어가 보겠습니다. 창의적 문장으로 구성된 소설과 달리 언론사가 주로 생산하는 뉴스는 팩트를 주로 다룹니다. 아시다시피 팩트 그 자체는 저작권의 보호대상이 되지 않습니다. 정확히는 "사실의 전달에 불과한 시사보도"는 저작권 보호 대상에서 제외됩니다. 게다가 팩트를 다루는 일부 보도 기사(스트레이트)는 6하 원칙 구조로 문장의 창의성이 발현될 여지가 크지 않습니다. 따라서 생성 AI가 팩트가 담긴 특정 언론사의 뉴스를 학습한 뒤 뉴스 구조와 문장으로 결과물을 내놓는다고 해서 저작권에 위배될 가능성은 높지 않습니다. 공정 이용 범위에 포함될 가능성이 더 높죠. 완전한 특종 기사라면 예외가 될 수 있겠지만요.

하지만 칼럼 등 의견 기사와 기획/탐사 보도, 창의적 저작 기사 등 저작권이 인정되는 기사라면 문제는 달라집니다. 만약 해당 언어모델의 온도값을 낮췄을 때 이러한 기사와 동일한 문장을 생성 AI가 만들어낸다면 저작권 위반으로 생성 AI 개발사에 소송을 검토해 볼 수가 있습니다. 자칫 언론사들의 경제적 이익이 침해 당할 수 있기 때문입니다. 만약 그러한 뉴스 콘텐츠가 유료 콘텐츠라면 문제는 더욱 심각해집니다. 해당 언론사에 구독료를 지불하느니 차라리 프롬프트를 잘 연구해서 동일한 콘텐츠를 대략이라도 역류시키는 시도를 하는 것이 경제적으로 득이 되기 때문입니다. 사용자들의 합리적인 선택이라고 할 수 있습니다.

비록 낮은 확률이라도 이러한 현상이 발생하면 고품질 저널리즘에 투자해온 언론사들은 낭패를 보기 마련입니다. ChatGPT의 사용량 증가로 인해 검색을 통한 유입이 적어지는 상황까지 겹친다면 언론사들의 수익모델은 더욱 위태로워질 수 있습니다. 좋은 저널리즘을 위해 투자해야 할 모티베이션이 사라지게 되는 것이죠.

요약하자면 생성 AI가 언론사들의 고품질 저널리즘을 역류시키는 가능성은 어떤 식으로든 견제할 필요가 있습니다. 대신 창의적 저작성 강한 기사 유형과 강하지 않은 기사 유형을 분리해 접근해야 합니다. 당연히 해당 언론사의 가치가 높아지려면 후자 뉴스 콘텐츠 유형이 늘어나야 한다는 결론을 내릴 수도 있겠죠. 아무래도 고품질 저널리즘에 투자할 때 그리고 그 분야 생산량이 어느 정도 수준을 유지할 때 언론사로서는 생성 AI에서 새로운 수익원을 발견할 수 있는 기회가 열린다고 할 수 있어서입니다.

언론사는 앞으로 어떻게 대응해야 하는가

표절 가능성은 생성 AI 개발사 쪽에서도 상당히 예민한 문제일 수밖에 없습니다. 이에 대한 대처 방안도 심각하게 고려 중인 것으로 알고 있고요. 자칫 언론사의 경제적 이익을 침해해 분쟁이 발생한 여지도 있습니다. 양쪽 모두 주의를 기울여야 하는 사안임에는 확실합니다.

현재 생성 AI 개발사 쪽에서는 모델을 학습시킬 때 데이터를 필터링하고, 모델이 완성된 뒤에는 아웃풋을 필터링하는 방안을 고려하고 있습니다. 표절에 영향을 미칠 데이터를 걸러내고, 아웃풋 단계에서 표절 문장을 자동 필터링하는 방안을 기술적으로 완비하는 방식입니다. 이러한 기술적 완화 전략은 충분히 도움이 될 수는 있겠지만 완벽하다고는 보증하지 못할 겁니다. 따라서 언론사들은 이러한 빈틈을 겨냥해 몇 가지를 준비할 필요가 있습니다.

  • (1) 생성 AI의 표절 가능성 연구 프로젝트 : 일단 기사 표절의 가능성을 염두에 두고 국내 생성 AI 모델이 출시될 경우 1차적인 연구작업을 시작할 필요가 있습니다. 연구 주제는 대략 '국내 생성 AI 모델의 기사 표절 가능성' 정도가 되지 않을까 합니다. 다양한 프롬프트를 실행하면서 동일한 문장과 문구 특히 해당 기사의 핵심 표현을 동일하게 뱉어내는 사례들과 가능성을 탐색해야 합니다. 특히 기자상을 수상할 정도로 탁월한 보도물을 중심으로 유사한 문장을 생성 AI가 제시하고 있는지를 파악해 보는 것도 중요할 것입니다. 가급적이면 비용을 절감하는 차원에서 협회 단위의 연구 프로젝트를 수행하는 것이 바람직해 보입니다.
  • (2) 차별적 고품질 저널리즘에 대한 비즈니스 가능성 탐색 : 원론적일 수도 있지만 여전히 빼놓을 수 없는 부분입니다. 차별적이고 고품질의 저널리즘은 인풋용 학습 데이터의 측면뿐 아니라 아웃풋 측면에서도 새로운 비즈니스의 기회를 열어주고 있습니다. 샘 알트만이 강조했던 것처럼, 고품질 콘텐츠에는 비용을 지불했거나 지불할 의사가 있다고 했습니다. 국내라고 사정이 다르진 않을 겁니다. 학습 데이터로서의 가치가 있고, 표절로 인한 분쟁 가능성이 높다면 당연히 비용을 지불하는 태도를 나타낼 것입니다. 모든 언론사가 오로지 이러한 콘텐츠에만 매달릴 수는 없겠지만 고품질 저널리즘이 비즈니스에 도움이 된다는 확신을 가지는 것이 중요하다고 생각합니다.

이 글은 생성 AI 개발사와 언론사 간의 갈등을 부추기기 위한 목적으로 작성된 것이 아닙니다. 결국 두 행위자가 혁신이라는 과제를 놓고 공존할 수 있는 방안을 찾는 것이 중요하다는 점을 강조하기 위함입니다. 좋은 데이터가 좋은 품질의 생성 AI를 낳습니다. 좋은 품질의 생성 AI는 언론사의 비용을 줄이는 데 기여할 수 있습니다. 좋은 저널리즘의 가치를 평가받을 수 있는 기회가 될 뿐 아니라 이를 생산할 수 있는 동기부여도 될 수도 있습니다.

좋은 저널리즘에 대한 보상책이 제한적인 상황에서, 새로운 기술적 패러다임이 등장하고 있습니다. 어느 한쪽만의 이익으로 귀결되지 않고 공존의 생태계를 만들어가기 위해서는 양쪽의 노력에 대한 이해와 평가, 보상이 전제될 필요가 있습니다. 생성 AI는 모처럼 찾아온 좋은 기회라고 생각합니다. 이 기회를 다툼과 분쟁이 아니라 현명한 타협으로 풀어가길 희망합니다.

참고 문헌

  • Carlini, N., Hayes, J., Nasr, M., Jagielski, M., Sehwag, V., Tramer, F., ... & Wallace, E. (2023). Extracting training data from diffusion models. arXiv preprint arXiv:2301.13188.
  • Henderson, P., Li, X., Jurafsky, D., Hashimoto, T., Lemley, M. A., & Liang, P. (2023). Foundation Models and Fair Use. arXiv preprint arXiv:2303.15715.
Newsletter
디지털 시대, 새로운 정보를 받아보세요!
작가와 대화를 시작하세요
1 이달에 읽은
무료 콘텐츠의 수

디지털 비즈니스의 핵심 인사이트만 전달하는 필수 구독

월 구독료 11,000원(부가세 포함)으로 모든 글을 빠짐없이 읽으실 수 있어요!

Powered by Bluedot, Partner of Mediasphere
닫기
Shop