앞선 글에서 멀티모달 AI를 왜 뉴스 산업이 관심을 가져야 하는가를 설명했습니다. 오늘은 실제 어떻게 사용할 수 있는가를 가볍게 스케치 해 보려고 합니다. 여러 사례들을 바탕으로 뉴스 산업의 활용 가능성을 확인해 보겠습니다. 여기엔 약간의 상상력도 동원됐다는 점을 미리 알려드립니다.

뉴스-저널리즘 산업이 ‘멀티모달 AI’ 더 주목해야 하는 이유
Prompt : A screen depicting the process of AI creating rich content by inputting voice, image, and video, painting, traditional medium/ Image by Stable Diffusion멀티모달 AI 시대가 훌쩍 다가왔습니다. 이제 텍스트로만 입력하고 텍스트로만 결과값을 받아낼 수 있었던 시기를 서서히 넘어서고 있습니다. 인간의 감각기관 입력 방식을 닮아가는 방향으로 상황이 전개되고 있다고 말할

우선 당장 사용가능한 도구를 살펴보면서 활용 사례를 이어가도록 하겠습니다. 아래는 LLaVA라는 멀티모달 LLM입니다. 마이크로소프트 등이 참여해 오픈소스로 공개된 LLaVA는 아래처럼 이미지를 업로드하고 간단한 프롬프트를 제시하면 그 성능을 확인할 수가 있습니다. 아래 사례는 특정 이미지를 업로드한 뒤 어떤 일이 벌어지고 있는지를 설명해 달라고 요청했을 때 나타나는 결과물입니다.