Prompt : A screen depicting the process of AI creating rich content by inputting voice, image, and video, painting, traditional medium/ Image by Stable Diffusion

멀티모달 AI 시대가 훌쩍 다가왔습니다. 이제 텍스트로만 입력하고 텍스트로만 결과값을 받아낼 수 있었던 시기를 서서히 넘어서고 있습니다. 인간의 감각기관 입력 방식을 닮아가는 방향으로 상황이 전개되고 있다고 말할 수 있습니다.

멀티모달 AI(Multimodal AI, Multimodal LLM)은 다양한 콘텐츠 유형(multimodal) 정보를 수신하고 추론할 수 있는 능력을 갖춘 LLM을 의미합니다. 텍스트뿐 아니라 오디오, 이미지, 비디오나 기타 유형까지 입력과 출력물이 확장되는 언어모델의 흐름을 상징합니다. 예를 들어 사진을 첨부한 뒤 "이 사진 속의 지역은 어디야?"라고 물어볼 수 있는 길이 열리는 것입니다. 이미 거대언어모델이 탄생할 때부터 멀티모델에 대한 열망은 강렬했습니다. 다만 그것을 구현할 수 있는 데이터와 컴퓨팅 파워가 부족했을 뿐이었죠. 하지만 지금은 상황이 달라지고 있습니다.

멀티모달 AI는 어느 산업군보다 뉴스 산업이 주목해야 할 신규 기술입니다. 뉴스 제작에 미칠 영향이 상당하기 때문입니다. 약간 한 발 나아간 이야기일 수도 있겠지만 뉴스의 포맷별 유형에 따른 전환 장벽은 거의 붕괴될 가능성도 존재합니다. 신문과 라디오 방송, TV 방성 긴의 경계는 더 희미해 질 수 있다는 의미입니다. 텍스트 뉴스와 현장 사진을 기반으로 영상을 제작하는 과정과 속도는 지금보다 훨씬 빨라질 수 있습니다. 물론 이 시점까지는 시간이 걸리겠지만 방향 자체가 달라지지는 않을 것 같습니다. 뉴스 산업이 멀티모달 AI를 주목해야 하는 이유입니다.