image

개발자는?

게리 펜스타메이커와 안젤라 웡

기획 배경

원래는 구글 SEO를 위해 키워드를 자동으로 추가할 목적으로 개발된 일종의 기사 분류기. 원래 목적은 SEO였지만 점차 확대되면서 추천 엔진으로 변경

사용되는 주요 기술(알고리즘)

전체적으로는 머신러닝의 개념 위에서 설계. TF-IDF를 머신러닝으로 학습시키면서 정확도를 높여가는 개발 프로세스를 선택했다고.

  1. TF-IDF
  2. Collaborative Filtering

몇 가지 이슈

  • TF-IDF로 자체 기사를 추천할 수 있는 분류기 개발은 완료. 문제는 독자들마다 서로 다른 결과값(추천 뉴스)를 제시하기 위해 독자들의 성향 분석이 요구

  • 가입된 로그인 사용자는 문제가 없지만 미가입 독자가 문제. 분류된 기사와 독자의 성향을 매핑해주는 방식이 중요한데, 여기서 문제점에 봉착.

  • 일단 미가입 독자는 쿠키 데이터를 분석해서 대략적인 성향을 파악.

  • CF 알고리즘은 원래 ‘콜드 스타트’ 즉 초기 데이터값이 없으면 추천할 데이터를 뽑아낼 수 없는 문제가 상존. (제가 알기론 CF의 경우 음악 추천 등에 많이 활용되는데, A와 B가 동일한 이용패턴을 보였다고 항상 유사한 콘텐츠를 선호하는 것은 아니어서 만족도 제고에 한계가 있는 것으로 압니다.)

대략 확인된 사항은

  • 워싱턴포스트는 현재 기술 수준으로 사진이나 영상 분석은 못하고 있다
  • TF-IDF와 CF를 공개된 수준 이상으로 어느 정도까지 커스터마이징 했는지는 확인이 안됨.
  • TF-IDF 알고리즘 보강하면서 일부 키워드에 가중치를 조절하는 작업은 진행했다고 설명.
  • 여튼 TF-IDF와 CF의 하이브리드 모델로 추천 정확도를 높이기 위해 애쓴 흔적은 분명해보임.

참고 자료