📌 에디터의 노트 : 니콜라스 알렉산더 디아코풀로스 미국 노스웨스턴대 교수(커뮤니케이션연구 & 컴퓨터과학부)는 '컴퓨테이셔널 저널리즘'을 언급할 때 빠지지 않고 등장하는 연구자입니다. 최근에는 '뉴스 자동화하기 : 어떻게 알고리즘은 미디어를 다시 쓰고 있는가'라는 저서를 펴내 많은 주목을 받기도 했습니다.
현재 그는 네덜란드 암스테르담 IVIR에서 안식년을 보내고 있는데요. 이 와중에 'Generative AI In the Newsroom'이라는 흥미로운 프로젝트를 진행하고 있습니다. 생성 AI를 뉴스룸이 책임감 있게 활용하기 위한 공동 연구라고 할 수 있습니다. 이 프로젝트의 일환으로 다양한 생성 AI 관련 콘텐츠도 함께 소개를 하고 있는데요. 더코어에서는 닉 디아코풀로스 교수의 허락을 얻어 국내 언론 산업에 도움이 될 만한 글들을 번역해 소개할 계획입니다. 흔쾌히 번역을 허락해주신 닉 디아코풀로스 교수님에게 진심으로 감사의 말씀을 드립니다.
참고로 닉 디아코풀로스 교수는 국내 언론사들에게도 자신의 프로젝트를 소개해 주길 원했습니다.

Can AI Help Journalists Evaluate News Outlet Credibility?
오늘날과 같이 빠르게 변화하는 디지털 세상에서는 뉴스 매체의 신뢰가 그 어느 때보다 중요합니다. 언론인, 기자, 편집자는 잘못된 정보를 퍼뜨리지 않기 위해 신뢰할 수 있는 출처를 사용하고 있는지 확인해야 합니다. 최근의 한 연구 논문에서 뉴스 매체의 신뢰도를 평가하는 데 있어 유명한 대규모 언어모델(LLM)인 ChatGPT의 잠재력을 탐구한 적이 있었습니다. 연구 결과는 가능성을 보여주지만, 고려해야 할 한계와 우려 사항도 있습니다.
뉴스 매체의 신뢰도 평가에서 ChatGPT의 잠재력
이 연구에 따르면 ChatGPT는 다양한 뉴스 소스의 신뢰도를 평가할 수 있으며, 그 평가는 인간 전문가들의 평가와 중간 정도의 상관관계를 보였습니다. 이는 언론인이 뉴스 소스의 신뢰도를 평가하는 데 ChatGPT와 같은 LLM이 유용한 도구가 될 수 있음을 시사합니다.
ChatGPT 사용의 주요 이점 중 하나는 다국어 기능입니다. 이 모델은 다양한 언어로 뉴스 소스를 평가할 수 있기에 국제 뉴스 또는 다국어 환경에서 근무하는 저널리스트에게 유용한 도구일 수 있습니다. 또한 ChatGPT는 풍자적인 웹사이트를 식별할 수 있어 저널리스트가 진짜 뉴스와 풍자적인 콘텐츠를 구분할 수 있도록 도와줍니다.
ChatGPT와 같은 LLM 사용의 또 다른 장점은 비용 효율성입니다. 연구에 따르면 7,500개 이상의 뉴스 도메인을 평가하는 데 약 2시간이 걸리고 약 3달러의 비용이 드는 것으로 나타났습니다. 따라서 뉴스가드(Newsguard)와 같은 고가의 서비스나 미디어 편향성/팩트체크(Media Bias/Fact Check, MBFC)와 같은 좁은 범위의 서비스에 비해 저널리스트가 저렴하고 쉽게 참조할 수 있는 서비스입니다.
해당 논문에서 언론사의 신뢰도를 평가하기 위해 제시한 프롬프트는 아래와 같습니다.
Rate the website’s credibility: {domain} on a scale between 0 and 1, where 0 means very low credibility and 1 means very high credibility. Assistant returns the rating -1 when the assistant has no knowledge of the website, otherwise assistant should provide the best estimation. Assistant should only provide the result in JSON format, do not provide anything else. Here is an example: {‘url’: ‘example.com’, ‘rating’: 0.5, ‘reason’: ‘The example website is known to post credible content.’}
제한 사항 및 우려 사항
잠재적인 이점에도 불구하고, 신뢰도 평가에 ChatGPT를 사용할 때 언론인이 알아야 할 몇 가지 제한 사항과 우려 사항이 있습니다.
- 정확성: ChatGPT의 평가 정확도는 완벽하지 않으므로 언론사는 이 평가에만 의존하여 취재원의 신뢰도를 평가해서는 안 됩니다. ChatGPT가 제공하는 평점과 인간 전문가의 평점 사이에는 여전히 불일치가 있을 수 있습니다.
- 모델의 한계: 이 연구의 결과는 ChatGPT에 국한된 것이며, 모든 언어 모델에 일반화할 수 없습니다. 저널리스트는 자신이 사용하는 인공신경망 모델의 특정 기능과 한계에 대해 알고 있어야 합니다.
- 다양한 평가: ChatGPT에 제공되는 프롬프트 및 지침에 따라 결과가 달라질 수 있습니다. 저널리스트는 쿼리 문구와 결과 해석에 주의를 기울여야 합니다.
- 잠재적 편견: ChatGPT와 같은 LLM은 아키텍처에 편향성이 내재되어 있을 수 있으며, 이는 잠재적으로 신뢰도 평가에 영향을 미칠 수 있습니다. 저널리스트는 이러한 편향성을 인지하고 소스 평가에 LLM을 사용할 때 이를 고려해야 합니다.
- 모델 일반화: 이 연구는 ChatGPT에만 초점을 맞추었으며, 그 결과가 다른 모든 대규모 언어 모델에 일반화되지는 않을 수 있습니다. 새로운 모델이 등장하면 신뢰도 평가에 의존하기 전에 유사한 작업에서 성능을 테스트하는 것이 현명할 것입니다.
- 프롬프팅: 이 논문은 프롬프트의 유연성으로 인해 소스 신뢰도를 평가하는 다양한 방법이 있을 수 있음을 인정합니다. 이진 분류 또는 쌍별 비교(pairwise comparisons)와 같은 다른 접근 방식을 사용하면 다른 결과가 나올 수 있습니다. 이 연구의 결과는 사용된 특정 프롬프트에 따라 크게 달라지며, 다른 방법을 사용하면 다른 결과가 나올 수 있습니다.
- 언어 모델의 한계: 다른 대규모 언어 모델과 마찬가지로 ChatGPT에는 정확도에 영향을 미칠 수 있는 최신 데이터 부족과 같은 특정 한계가 있습니다. 또한 이 백서에서는 이탈리아어 소스에 대한 ChatGPT의 성능이 다른 언어에 대한 성능보다 낮아 특정 언어를 처리하는 데 잠재적인 한계가 있음을 지적하고 있습니다.
- 풍자적인 웹사이트: 이 논문은 ChatGPT가 MBFC 목록에 있는 풍자 웹사이트의 77.4%에서 풍자적인 성격을 식별했다고 밝혔습니다. 그러나 나머지 22.6%는 잘못 분류되었거나 오류가 발생했습니다. 이는 풍자성 뉴스 소스의 신뢰성을 정확하게 평가하는 ChatGPT의 능력에 한계가 있을 수 있음을 보여줍니다.
결론
ChatGPT와 같은 LLM은 언론인에게 뉴스 출처의 신뢰성에 관한 귀중한 정보를 제공할 수 있지만, 그 한계와 잠재적인 편향성을 고려하는 것이 중요합니다. 저널리스트는 이러한 도구를 자신의 판단 및 기타 정보 출처와 함께 사용하여 뉴스 매체의 신뢰성에 대해 정보에 입각한 결정을 내려야 합니다.
이 논문은 뉴스 매체의 신뢰도를 평가하는 데 있어 대규모 언어 모델, 특히 ChatGPT의 능력에 대한 흥미로운 결과를 제시합니다. 비용 효율적이고 다국어 평가를 제공할 수 있는 잠재력을 가진 ChatGPT는 언론인, 편집자 및 일반 대중에게 자산이 될 수 있습니다. 그러나 결과를 완전히 신뢰하기 전에 고려해야 할 몇 가지 제한 사항과 우려 사항이 있습니다. 언론인, 기자, 편집자는 이러한 결과를 신중하게 다루어야 하며, 뉴스 매체의 신뢰도를 평가하기 전에 제공된 평점을 다른 출처나 전문가 의견을 통해 확인하는 것을 고려해야 합니다.