뉴욕 시민을 위한 미션
• THE CITY는 뉴욕의 다양한 지역과 그곳에 사는 모든 사람들을 대상으로 서비스를 제공하는 것을 목표로 합니다. 하지만 정말 그렇게 하고 있을까요?
• 2019년 설립된 이래, 우리의 편집진과 기자들은 지리적 다양성을 염두에 두고 기사를 할당하고 작성, 촬영, 편집하는 일에 우선순위를 두었습니다. 이상적인 목표를 항상 추구해왔지만, 우리가 목표를 달성하거나 올바른 방향으로 나아가고 있는지를 정량적으로 이해할 수단은 쉽지 않았습니다.
데이터로 본 커버리지 실험
• 새 웹사이트로의 이전 과정에서 과거 기사 아카이브를 컴퓨터 파일 형태로 받으면서 우리의 커버리지를 더 잘 이해할 기회가 생겼습니다. 따라서 실험을 결심하고 모든 기사의 위치를 뉴욕시 지도 위에 표시하기로 했습니다.
• 이 실험은 우리 자신에게 책임을 지는 것뿐만 아니라 최신 대규모 언어 모델의 발전을 배우고, 이러한 모델이 우리의 커버리지를 정확하게 감사할 수 있는지 여부를 알아보는 기회였습니다. 그래서 OpenAI의 ChatGPT에게 모든 기사 파일을 읽게 하고 각 기사가 어디에서 일어났는지 알려달라고 요청했습니다. 결과는 지도 위에 표시되었습니다.
AI와 함께 한 지도 만들기
• 저희가 2019년 4월 출범부터 2023년 9월까지 발행한 4,159개의 스토리 중 ChatGPT는 특정 "장소"를 2,750개 스토리에 대해 선택할 수 있었으며, 주어진 동네와 매치된 스토리도 2,129개였습니다. 우리는 뉴욕시 계획국의 동네 집계 구역(Neighborhood Tabulation Areas)을 사용하여 우리 동네를 정의했습니다.
• 전통적인 소프트웨어 접근 방식은 각 기사를 읽고 텍스트를 분석한 후 거기서 주요 위치를 추출하는 코드를 작성하는 것입니다. 장소 언급을 추출하기 위해 이러한 코드는 "엔터티 추출"이라는 작업을 수행합니다. 엔터티 추출은 자연어 처리 분야의 일부로, "명명된 엔터티 인식"이라는 기술을 사용하여 국가, 도시 또는 주와 같은 지정학적 엔터티(GPE)나 산과 같은 비GPE 위치 등을 식별합니다.
• 하지만 OpenAI의 ChatGPT가 유용하게 활용되었습니다. ChatGPT와 같은 대규모 언어 모델은 실제 세계의 "일반적인" 지식과 맥락을 가지고 있습니다. ChatGPT 사용 시도 때, 몇 초 만에 위치, 뉴욕의 동네, 구 및 지리 좌표 등을 읽고 처리하여 반환할 수 있음을 발견했습니다. 문제는 그 정확성이었습니다.
AI 기술과 저널리즘의 만남
• 좋은 소식은 ChatGPT 분석 결과에 따르면 우리가 실제로 도시 전체에 걸쳐 광범위한 부분을 커버하며, 단지 많은 미디어 관심을 받는 부유한 동네만 다루지 않는다는 것입니다.
• 하지만 AI가 선택한 일부 장소는 잘못되었거나 이해하기 어렵고, 결과를 다른 전통적인 기술로 교차 검증할 필요가 있었습니다. 결론적으로 ChatGPT와 대규모 언어 모델은 완벽하지 않으며 이 지도도 마찬가지입니다. 이것을 전형적인 뉴스 그래픽처럼 보아서는 안 됩니다. 저희가 보여주려는 것은 THE CITY 보도의 절대적인 대표라기보다는 저희 노력의 겸손한 시각적 표현일 뿐입니다.
• 비영리 뉴스룸으로서 인간이 만든 보도작업에 대한 비용 절감 대체재로 AI를 고려하는 시점에서 저널리즘이 AI와 조우하고 있습니다. 생성 AI는 이러한 지도와 같은 도구를 구축하여 우리가 서비스하는 커뮤니티에 더욱 반응할 수 있게 해주므로 THE CITY의 사명을 달성하는 수단으로 활용됩니다.