앞선 글에서 멀티모달 AI를 왜 뉴스 산업이 관심을 가져야 하는가를 설명했습니다. 오늘은 실제 어떻게 사용할 수 있는가를 가볍게 스케치 해 보려고 합니다. 여러 사례들을 바탕으로 뉴스 산업의 활용 가능성을 확인해 보겠습니다. 여기엔 약간의 상상력도 동원됐다는 점을 미리 알려드립니다.
뉴스-저널리즘 산업이 ‘멀티모달 AI’ 더 주목해야 하는 이유
Prompt : A screen depicting the process of AI creating rich content by inputting voice, image, and video, painting, traditional medium/ Image by Stable Diffusion멀티모달 AI 시대가 훌쩍 다가왔습니다. 이제 텍스트로만 입력하고 텍스트로만 결과값을 받아낼 수 있었던 시기를 서서히 넘어서고 있습니다. 인간의 감각기관 입력 방식을 닮아가는 방향으로 상황이 전개되고 있다고 말할
![](https://storage.googleapis.com/cdn.media.bluedot.so/bluedot.thecore/2023/10/x6mrfr_20231013_15_34_51_69.jpeg)
우선 당장 사용가능한 도구를 살펴보면서 활용 사례를 이어가도록 하겠습니다. 아래는 LLaVA라는 멀티모달 LLM입니다. 마이크로소프트 등이 참여해 오픈소스로 공개된 LLaVA는 아래처럼 이미지를 업로드하고 간단한 프롬프트를 제시하면 그 성능을 확인할 수가 있습니다. 아래 사례는 특정 이미지를 업로드한 뒤 어떤 일이 벌어지고 있는지를 설명해 달라고 요청했을 때 나타나는 결과물입니다.
![](https://storage.googleapis.com/cdn.media.bluedot.so/bluedot.thecore/2023/10/o9n3le_스크린샷_2023-10-19_오후_2.11.13.png)