광고 ad
광고 ad
Daum 뉴스의 AI검색 허용, 언론사가 입는 피해는?
Daum 뉴스의 AI검색 허용, 언론사가 입는 피해는?

블루닷 인텔리전스로 다수 인용되는 사이트를 분석하다 보면 daum.net이 자주 등장합니다. 네이버가 주로 blog 위주로 AI검색에 인용되는 것과는 달리, 다음(Daum)은 뉴스 콘텐츠 인용률이 상당히 높게 나타나는 경향을 보입니다. 언론사들의 오리지널 뉴스 페이지가 존재하지만 AI 검색 특히 구글 계열과 퍼플렉시티는 다음 내 뉴스 콘텐츠를 상당히 자주 인용하는 편이었습니다.

아래 블루닷 인텔리전스로 측정한 표에서 보듯, 블루닷 인텔리전스의 주요 쿼리에도 다음은 상대적으로 인용 빈도를 보이고 있죠. 클릭하고 들어가면 대부분이 다음 뉴스 콘텐츠들입니다.

원인은 daum.net의 robots.txt 파일에서 찾을 수 있습니다.

우선 daum.net/robots.txt 파일을 보겠습니다. 광고 관련한 콘텐츠가 아니면 사실상 모든 AI 검색 크롤러를 차단하고 있습니다. 이것만 보면 Daum이 AI검색 크롤러에 대해 엄격한 내부 원칙을 표방하고 있는 것으로 확인이 됩니다.

User-agent: GoogleOther
Disallow: /
Allow : /.well-known/privacy-sandbox-attestations.json

User-agent: *
Disallow: /
Allow : /$
Allow : /ads.txt
Allow : /app-ads.txt

하지만 뉴스 폴더가 포함된 v.daum.net/robots.txt를 보면 정책이 완전히 달라집니다. robots.txt 파일 자체가 존재하지 않습니다. 이건 모든 크롤러를 허용하는 효과를 발휘합니다. 심지어 학습용 봇에 해당하는 GPTbot도 접근 가능하다는 신호입니다.

왜 제가 v.daum.net/robots.txt를 주목하는지 말씀을 드리겠습니다. 다음에 인링크로 공급되는 모든 언론사들의 뉴스는 아래처럼 v.daum.net/ 의 url 구조를 가집니다. PC나 모바일에서 동일합니다. 쉽게 말해, 언론사들이 다음에 공급한 뉴스는 v.daum.net이라는 다음의 서브도메인 내 /v/에 담겨 있다는 의미입니다.

문제가 바로 여기에 있습니다. daum.net에서는 엄격하게 운영되는 크롤러 정책이 뉴스가 담겨 있는 서브도메인(독립 도메인이라 할 수 있는) v.daum.net에서는 적용되지 않고 있습니다. 아예 robots.txt 파일을 업로드하지 않고 전면 개방한 정책을 보여주고 있는 겁니다. AI검색에서 v.daum.net이 많이 잡히는 이유가 바로 여기에 있습니다.

HTTP 레벨에서 차단 여부를 확인하면

robots.txt은 물리적 강제 장치가 아닌 정책 공표 행위입니다. '이 룰을 지켜주세요'라는 선언이라고 할 수 있습니다. 지키지 않으면 도덕적으로 비난은 받을 수 있어도 물리적으로 강제 차단되는 효과는 없습니다. 대신 법적 소송의 근거로 활용될 수는 있습니다.

이러한 빈틈을 차단하기 위해 헤더 수준에서 봇의 접근을 차단하는 장치를 보통 마련하게 되는데요. 그것의 여부도 테스트를 해봤습니다. 아래는 제가 오픈AI의 학습용 봇인 GPTbot이 다음에 전송된 언론사의 인링크 기사를 가져갈 숭 있는지를 확인한 결과입니다. (헤더와 에이전트 설정만 했습니다.)

  • HTTP/2 200 : 정상 응답(차단하지 않음)
  • content-type: text/html;charset=UTF-8 : 일반 html 페이지라는 의미
  • content-length: 94861 : 콘텐츠 길이 정보. 즉 콘텐츠가 정상적으로 존재한다는 의미  

결론적으로 다음은 뉴스 콘텐츠를 헤더 단위에서 학습용 봇에 노출하고 있었습니다.

robots.txt 부재가 '인링크' 언론사에 미치는 영향은?

다음의 AI검색 크롤러 관련 정책은 언론사들에게 적지 않은 기회 상실을 가져올 수밖에 없습니다. 예를 들어, 다음에 인링크로 기사를 공급하고 있는 '가'라는 언론사가 있다고 가정해 봅시다. '가' 언론사는 자사 웹사이트에 A라는 기사를 게시하고, 다음과 네이버에 이를 (인링크로) 전송했습니다. 오리지널 페이지는 당연히 '가' 언론사의 A 기사 페이지이지만, AI 검색은 다음 뉴스(v.daum.net)의 A 기사를 오리지널로 판단합니다. 다음이라는 도메인의 권위가 상대적으로 높은 편이고, 방대한 업데이트 구조를 가지고 있기에 개별 언론사보다는 높은 신뢰 평가를 받게 될 수밖에 없는 겁니다. 이는 다음과 같은 폐해를 언론사에 불러오는데요.

  • AI검색 기업이 언론사 기사를 학습했을 가능성이 존재한다 : 현재 설정만 보면, 오픈AI가 언론사 대신 다음 뉴스에 게재된 모든 기사를 학습용으로 가져갈 수 있습니다. 다음이 robots.txt 외에 HTTP 레벨에서 GPTbot 등 학습봇을 차단하지 않고 있어서 언론사의 기사를 모두 가져가 학습용으로 활용할 수 있다는 것이죠. 언론사 단위에서 학습용 봇을 차단했다 하더라도 다음 뉴스에 공급된 기사가 학습용으로 활용됐다면 언론사 입장에선 적지 않은 잠재적 피해를 입고 있는 셈입니다.
  • AI검색에서 '가' 언론사 기사가 인용될 가능성을 박탈한다 : 분명히 가 언론사 웹사이트에 A기사가 등록돼 있지만 이는 AI검색에서 인용 후순위로 밀립니다. 다음 뉴스 내 A 기사를 오리지널로 보기 때문입니다.
  • AI검색 이용자가 '가' 언론사의 브랜드를 인지할 기회를 상실한다 : AI검색에서 '가' 언론사가 인용 상위에 오를 수 있는 기회가 사라질 뿐 아니라, 인용 출처에서도 '가' 언론사 브랜드가 노출될 기회가 낮아집니다.  
  • AI검색 유입 트래픽이 줄어든다 : AI검색 결과를 보고 사용자가 링크를 클릭할 확률이 높지는 않습니다. 하지만 적은 규모라도 AI검색을 타고 들어올 수 있는 트래픽 기회가 상실됩니다. 다음으로 들어가기 때문이죠.

종합하면 '가' 언론사로 표현되거나 넘어가야 할 사용자가, '가' 언론사의 오리지널 기사를 인식하지 못한 채, 다음으로 넘어가 기사를 소비할 가능성이 높아지는 거죠. 여러모로 기회 상실의 폭이 클 수밖에 없는 상황입니다.

네이버 뉴스는 어떻게 하고 있을까

궁금증은 네이버 뉴스로 넘어가기 마련이겠죠. 그래서 네이버 뉴스의 robots.txt 정책을 확인해 봤습니다. 아래 박스를 봐주시기 바랍니다. 포털 다음과는 완전히 다릅니다. 아래 내용을 보시면 알 수 있겠지만, 거의 모든 학습용 봇은 차단을 하고 있습니다. 뿐만 아니라 OAI-SearchBot  과 같은 AI 검색 인덱싱용 봇도 차단하고 있습니다. 다만 ChatGPT-user와 같은 일부 검색 봇은 허용을 하고 있는 상태입니다.

User-agent: *
Disallow: / User-agent: FacebookExternalHit
User-agent: Twitterbot
Allow: /

# BOT ACCESS FOR THE PURPOSES OF AI TRAINING AND RETRIEVAL-AUGMENTED GENERATION (RAG) IS STRICTLY PROHIBITED.

User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /

네이버 뉴스는 외부 AI검색 크롤러를 차단함으로써, 네이버 뉴스에 인링크로 공급한 언론사 뉴스를 외부 검색에 재유통하는 것을 막고 있습니다. 다소 빈틈이 보이긴 하지만(Perplexity‑User, chatgpt-user 등은 허용된 상태) 다음보다는 더 엄격하게 관리가 되고 있는 상태입니다.

다음과 네이버의 뉴스 공급 계약이 달라서?

한 가지 확인되지 않은 사항이 있습니다. 뉴스 공급 계약에 명시된 콘텐츠의 사용 범위(노출 범위)입니다. 언론사들이 다음에 뉴스 공급 계약을 체결하면서, 해당 뉴스의 AI검색 노출에 동의한 탓일 수도 있습니다. 물론 이는 계약서를 뜯어보지 않는 이상 확인할 길이 만무합니다. 어디까지나 추정인 것이죠. (언론사 담당자 분 계시면 확인해주시면 정말 고맙겠습니다.)

만약 해당 조항이 없다면, 포털 다음은 언론사들에게 적지 않은 불이익을 안겨주고 있다고 말할 수 있습니다. AI검색을 통해 유입될 수 있는 트래픽, 학습봇 차단에 따른 라이선싱 수익의 기대, 노출될 수 있는 브랜드 인지 효과 등을 다음이 박탈하고 있어서입니다.

다음 뉴스 정책에 대한 관심이 네이버 뉴스에 비해 다소 덜한 편이라 이러한 정책이 공론화는 되지 않은 것으로 보입니다. 하지만 AI검색이 주류화하고 있는 현재 시점에, 언론사 기사의 인용 기회를 앗아가는 정책에 대해 계약 기반으로 문제제기를 할 필요가 있지 않을까 합니다.

Newsletter
디지털 시대, 새로운 정보를 받아보세요!

블루닷에이아이의 공동창업자 겸 대표이자, 더코어의 미디어 전담 필자입니다. 고려대를 나와 서울과학기술대에서 박사과정을 수료했습니다. 언론사와 다음커뮤니케이션을 거쳐, 미디어스타트업 엑셀러레이터 '메디아티'에서 이사로 근무했고 구글에서 티칭펠로, 뉴스생태계 파트너십 경험도 쌓았습니다. '트위터 140자의 매직', '혁신저널리즘'(공동저작), '사라진 독자를 찾아서', 'AI와 스타트업', 'AI, 빅테크, 저널리즘' 등을 집필했습니다.

더코어 스토어