[a16z] 생성 AI 활용의 현재와 미래

김송현

2024년 1월 31일

3️⃣

1. a16z가 생성 AI 업무혁신 사례들을 소개했습니다.
2. 이미 콘텐츠를 형식에 구애받지 않고 생성하는 걸 넘어, 이용자가 원하는 대로 편집할 수 있는 기능이 자리 잡았는데요.
3. 몇 개월 안에 AI가 생성하고 편집할 수 있는 콘텐츠의 범위가 더욱 넓어질 걸로 보입니다.

생성 AI는 우리 일터를 완전히 재창조할 수 있습니다. 단순히 AI를 업무에 도입한 걸 넘어서 완전히 AI만으로 운영되는 기업들을 보는 게 일상이 될 수 있습니다. 그리고 미드저니와 ChatGPT의 플러그인, 코드 인터프리터와 같은 제품은 그 가능성이 꽤 큼을 보여줍니다. 이제 누구나 프로그래머, 프로듀서, 디자이너, 뮤지션이 될 수 있습니다. 창의성과 기술은 점점 같은 말이 되어가는데요. AI에 의해 만들어질 워크플로를 소비해서 누구나 쉽게 새로운 제품/서비스를 생산하는, '프로슈머가 넘치는 시대'가 다가오고 있단 뜻입니다. 그렇다면 현재 가장 성공적인 AI 워크플로는 무엇이며, 앞으로 어떤 모습으로 진화할까요? a16z가 소개하는 AI 워크플로의 현재와 미래를 함께 살펴보겠습니다.

🚜

'워크플로(Workflow)'란 '일의 시작부터 완료까지 정보나 업무가 작동하는 프로세스' 혹은 '프로세스를 관리하는 시스템'을 뜻합니다. 우리말로는 작업 흐름, 또는 작업 시퀀스라고 지칭된다고 하네요. 이 글에선 기업의 업무 전반에 사용되는 도구(Tool)와 같은 의미로 쓰인다고 이해하면 좋겠습니다.

생성AI 워크플로들 '성능의 깊이'와 '목적(창조성과 전문성)'을 기준으로 한 2X2 매트릭스로 정리했습니다. ⓒa16z

생성 AI 워크플로의 현재

'빈 페이지(Blank Page)' 문제를 해결하는 생성 도구
생성 AI의 주요 기능은 프롬프트를 이미지, 동영상, 텍스트로 변환하는 것입니다. 즉 '빈 페이지'를 원하는 이미지로 가득 채우는 건 물론, 단순한 스케치나 개요를 구체적인 제품/서비스로 바꿀 수 있단 뜻입니다.
과거엔 일부 기업만이 자체 개발한 툴이나 내부 인력을 통해 이 작업을 수행할 수 있었습니다. 하지만 이젠 모든 회사가 여러 AI 모델을 융합해 신제품을 만들거나 업무 상 문제를 해결할 수 있습니다.
Vizcom의 렌더링 도구와 Durable의 웹사이트 빌더를 예로 들 수 있는데요. 프롬프트나 스케치 또는 3D 모델을 입력하면 즉시 원하는 결과를 얻을 수 있습니다.

(왼쪽) Vizcom의 렌더링 도구 (오른쪽) Durable의 웹사이트 빌더

멀티모달 AI
대다수 창작 작업에는 둘 이상의 콘텐츠 형식이 결합됩니다. 예를 들어 웹툰은 이미지+텍스트, 뮤비는 음악+동영상인 것처럼 말입니다. 현재는 모든 콘텐츠를 생성할 수 있는 AI는 없습니다. 따라서 이미지, 텍스트, 사운드 등 여러 종류의 콘텐츠를 생성해내는 AI의 조합, 즉 멀티모달 워크플로가 필요합니다.
HeyGen의 아바타 제품이 대표적인 예시입니다. HeyGen은 ElevenLabs의 텍스트 음성 변환 API를 자사 아바타에 결합했습니다. 아바타는 음성에 알맞는 입모양을 취합니다.

Meet my AI clone! 🤖

I used @HeyGen_Official to make this avatar from a short clip of me - I can now make her say (almost) anything.

I think she passes as the real me pretty well… pic.twitter.com/OlEJKaVUL8
— Justine Moore (@venturetwins) January 5, 2024

지능형 편집기
AI에 의해 '한 번에 완성되는' 생성물은 거의 없습니다. 꼭 이미지가 아니더라도 챗GPT만 써봐도, 첫 번째 질문에서 원하는 답을 정확히 얻긴 어렵습니다. 원하는 결과를 얻을 때까지 'Regenerate'를 누르거나 수정된 프롬프트를 입력해야 합니다. 지루하고 답답한 일입니다.
저 같은 경우엔, AI로 이미지를 생성하다 보면 '아, 다 좋은데 여기만 고치면 쓸 수 있겠다' 싶을 때가 참 많습니다. 하지만 같은 프롬프트에 해당 수정사항만 추가해서 이미지를 생성하면 예상과 완전히 다른 결과가 나오곤 합니다. 그런 불편을 없애고자 기존 결과물을 가져와서 다듬을 수 있는 기능이 등장하기 시작했습니다. 미드저니의 Variation과 Zoom 기능이 좋은 예시입니다.
이젠 그런 기능이 동영상 생성 AI에도 적용되는데요. Pika가 그 예시입니다.

🌟AI 'Modify Region' Example🌟https://t.co/JHRrintgm5 pic.twitter.com/mVnW1oDDoU
— Pika (@pika_labs) December 5, 2023

심지어 음성도 수정/변환할 수 있습니다. ElevenLabs의 오디오북 워크플로는 음성을 원하는 속도, 발음, 높낮이로 바꿀 수 있습니다.

생성 AI 워크플로의 미래는?

위와 같은 놀라운 기능들을 가졌음에도 불구하고, 생성 AI 워크플로는 아직 초기 단계를 걷고 있습니다. a16z가 소개하는 앞으로 올해 기대되는 생성 AI 워크플로 기능은 다음과 같습니다.

멀티모달 편집 도구
가장 좋은 예시는 동영상인데요. 지금은 생성 AI로 단편 영화를 제작하려면 Pika나 Runway 등을 이용해 클립을 여럿 생성한 다음, Capcut이나 Kapwing를 사용해 편집이나 사운드 믹싱 작업을 진행해야 합니다.
차세대 생성 AI 워크플로는 이 모든 과정을 하나의 플랫폼에서 수행하도록 할 것입니다. 즉 미드저니(이미지 생성) + Runway(비디오로 변환) + 프리미어(편집) + Suno(음악 생성) + ElevenLabs(더빙)을 한 플랫폼에서 할 수 있을 거란 뜻입니다.

다양한 상호 작용
사용자와 상호 작용하며 사용자가 생각을 정리하거나, 그것을 바탕으로 새로운 생각을 하도록 돕는 기능입니다. Oasis, TalkNotes, AudioPen 등 유사한 기능을 제공하는 제품들이 하나씩 생겨나고 있습니다.
'진짜'와 '가짜'를 모두 다루는 기능
실제 인간이 생성해낸 콘텐츠를 '진짜'라고 하고 AI가 만든 콘텐츠를 '가짜'라고 한다면, 지금 시장에 나온 도구의 대다수는 둘 중 하나에만 작동합니다. 즉, AI가 생성한 이미지를 편집하는 AI 워크플로는 진짜 사진을 편집하는 덴 서툴단 것입니다.
인간과 AI의 협업이 늘어날수록, 이 '진짜'와 '가짜'를 모두 다룰 수 있는 도구가 필요할 텐데요. Runway의 편집 툴처럼 둘을 모두 능수능란하게 편집하는 AI 워크플로가 점차 주목 받을 것으로 보입니다.