앞선 글에서 멀티모달 AI를 왜 뉴스 산업이 관심을 가져야 하는가를 설명했습니다. 오늘은 실제 어떻게 사용할 수 있는가를 가볍게 스케치 해 보려고 합니다. 여러 사례들을 바탕으로 뉴스 산업의 활용 가능성을 확인해 보겠습니다. 여기엔 약간의 상상력도 동원됐다는 점을 미리 알려드립니다.
우선 당장 사용가능한 도구를 살펴보면서 활용 사례를 이어가도록 하겠습니다. 아래는 LLaVA라는 멀티모달 LLM입니다. 마이크로소프트 등이 참여해 오픈소스로 공개된 LLaVA는 아래처럼 이미지를 업로드하고 간단한 프롬프트를 제시하면 그 성능을 확인할 수가 있습니다. 아래 사례는 특정 이미지를 업로드한 뒤 어떤 일이 벌어지고 있는지를 설명해 달라고 요청했을 때 나타나는 결과물입니다.