앞선 글에서 멀티모달 AI를 왜 뉴스 산업이 관심을 가져야 하는가를 설명했습니다. 오늘은 실제 어떻게 사용할 수 있는가를 가볍게 스케치 해 보려고 합니다. 여러 사례들을 바탕으로 뉴스 산업의 활용 가능성을 확인해 보겠습니다. 여기엔 약간의 상상력도 동원됐다는 점을 미리 알려드립니다.
뉴스-저널리즘 산업이 ‘멀티모달 AI’ 더 주목해야 하는 이유
Prompt : A screen depicting the process of AI creating rich content by inputting voice, image, and video, painting, traditional medium/ Image by Stable Diffusion멀티모달 AI 시대가 훌쩍 다가왔습니다. 이제 텍스트로만 입력하고 텍스트로만 결과값을 받아낼 수 있었던 시기를 서서히 넘어서고 있습니다. 인간의 감각기관 입력 방식을 닮아가는 방향으로 상황이 전개되고 있다고 말할

우선 당장 사용가능한 도구를 살펴보면서 활용 사례를 이어가도록 하겠습니다. 아래는 LLaVA라는 멀티모달 LLM입니다. 마이크로소프트 등이 참여해 오픈소스로 공개된 LLaVA는 아래처럼 이미지를 업로드하고 간단한 프롬프트를 제시하면 그 성능을 확인할 수가 있습니다. 아래 사례는 특정 이미지를 업로드한 뒤 어떤 일이 벌어지고 있는지를 설명해 달라고 요청했을 때 나타나는 결과물입니다.

현재 등장하고 있는 초기 멀티모달 LLM은 이처럼 이미지를 판독하고 설명하는데 초점이 맞춰져 있습니다. 영상, 오디오, 3D 등 다양한 포맷(모드)를 구현하는 데까진 이르지 못하고 있습니다. 하지만 몇몇 빅테크들은 서서히 처리할 수 있는 콘텐츠 양식을 확장해 가고 있는 상황입니다. 특히 ChatGPT의 경우 GPT-4에 오디오와 이미지를 통합한 모델(GPT-4 with Vision)을 서비스로 구현해 냈습니다. 조만간 멀티모달 AI에 해당하는 GPT-4V를 정식 서비스로 출시할 것이라고 밝히고 있는 상태입니다.