소라는 3D로 생각하고 2D로 시각화합니다.

소라(SORA)

개인적으로 챗GPT-4.0을 유료로 잘 사용하고 있습니다. 소속된 회사에서 개발된 오웰(Orwell)도 이용하고 있고요. 훌륭한 기능에 만족하면서 당분간 인공지능이 더 이상 나를 놀라게 할 수 없다고 생각했습니다. 그런데  OpenAI의 새로운 텍스트-비디오 변환 도구 소라(SORA)가 발표되었습니다. 이 글을 읽는 독자분 중 대다수는 관련 영상을 보셨을 겁니다. 그래도 아래 영상을 다시 볼 것을 추천합니다. 특히 8분 30초부터 8분 40초까지 나오는 “도쿄 교외를 달리는 열차 창문에 비친 풍경"은 여러번 시청하는 것이 좋습니다.

위 영상에 포함되지 않은 마인크래프트 시뮬레이션 영상도 추천합니다.

소라가 만든 영상을 보면서 우리 모두는 매우 특별한 것을 보고 있다는 것을 본능적으로 느끼게 됩니다. 이 동영상은 편집되지 않은 순수한 텍스트-이미지 생성 AI 도구로, 곧 ChatGPT처럼 대중적인 제품이 될 것입니다. 물론 소라 동영상 생성에 얼마나 많은 시간이 필요할지 그리고 오픈AI가 어느 수준의 비용을 요구할지는 아직 알 수 없습니다. 런웨이(Runway) 등 유사한 동영상 생성 AI가 존재하지만 소라의 성취는 이와 비교할 수 없을 정도로 놀랍습니다. 미국 커뮤니티 레딧(Reddit)에서는 이미 영상 제작 관련 일자리 및 업무의 변화에 대한 논의가 활발히 이루어지고 있습니다.

소라는 "와우!", “대단해!’를 넘어 우리에게 또 다른 것을 보여줍니다. 바로 (아직) 숨겨진 혁명입니다.

시뮬레이션 세계

OpenAI는 소라로 생성된 동영상 외에도 연구 논문을 함께 공개했습니다. 연구 논문의 제목은 “월드 시뮬레이터로서의 비디오 생성 모델(Video generation models as world simulators)”입니다. 논문 제목이 다소 과장되게 들리지만 논문을 읽다보면 ‘정말 대단하다'라는 탄성이 나옵니다. 이 논문의 요점은 아래와 같습니다.

다른(!) 영상 생성모델은 일반적으로 프레임 단위(frame for frame)로 생성합니다. 다른 모델은 먼저 하나의 이미지를 보고, 그 다음 이미지가 어떤 것일 수 있을지 생각한 이후 다음 이미지를 생성합니다. 이미지에 이미지를 붙여 나가는 겁니다. 이 과정은 GPT-4.0과 같은 대규모언어모델(LLM)이 하나의 토큰을 생성하고 이와 연관지어 다음 토큰을 생성하는 과정과 유사합니다.

그러나 실제로 이 프레임별 생성 방법에는 한계가 있습니다. 사람이 표지판을 지나가는 동영상을 예로 들어 보겠습니다. 각 프레임이 단순히 이전 프레임을 기반으로 만들어진다면, 사람이 표지판을 가리자마자 표지판이 사라질 것입니다. 이 때 해당 동영상에서 일관성이 사라집니다. 이 말이 무슨 뜻인지 느낌이 오지 않으시죠. 잠시만 기다려 주세요.

소라(SORA)는 이 문제를 해결했습니다. 아래 3개 이미지를 보시죠. 이 동영상에서는 인물의 머리가 배경의 도로 표지판을 잠시 가리고 있지만, 오른쪽으로 더 이동했을 때 표지판은 그대로 있고 카메라가 1미터 정도 뒤로 이동하면서 거리도 달라졌습니다.

소라(SORA)는 지금까지의 동영상 생성 AI와 다릅니다. 소라가 하는 일은 특정 장면에 대한 공간 모델링에 가깝습니다. 매우 축약된 형태로 말이죠. 소라는 3D로 생각하고 2D로 시각화합니다. OpenAI는 이를 "새로운 시뮬레이션 기능(Emerging simulation capabilities)"이라고 부릅니다. 3D로 생각하고 2D로 시각화하는 새로운 시뮬레이션 방법을 통해 놀랍도록 일관성 있고 실제와 같은 공간 표현이 가능합니다. 심지어 소라가 생성한 동영상에서 묘사된 장면의 3D 모델을 도출할 수 있을 정도로 소라의 시뮬레이션은 훌륭합니다. 아래 X 게시글을 보시지요.

소라는 중력이 사람, 동물, 액체 등 다양한 물체에 미치는 영향도 지금까지의 다른 어떤 생성 AI보다 훨씬 더 잘 시뮬레이션합니다. 이 모든 것이 결합되어 동영상이 놀라울 정도로 생생하게 보입니다. 소라는 우리가 실제 세계에서 알고 있는 것과 동일한 규칙을 지키고 있기 때문입니다.

소라가 공개된 이 후, 소라 개발에 에픽게임즈(Epic Games)가 개발한 언리얼 엔진 5(Unreal Engine 5)와 같은 비디오 게임 엔진이 사용되었을 수 있다는 추측이 제기되었습니다. 쉽게 이야기해 소라가 의도적으로 3차원 공간과 그 물리적 효과를 잘 표현하도록 훈련되었는지 여부에 대한 추측입니다. 아직 이에 대한 증거는 없습니다. 제 판단으로는 소라가 이 모든 것을 수 많은 동영상 자료를 처리하는 과정에서 스스로 학습했을 가능성이 더 높아 보입니다. 소라에게 누구도 중력이 어떻게 작용하는지, 물이 어떻게 튀고 눈이 어떻게 쌓이는지 설명할 필요가 없었을 겁니다. 아무도 GPT-4.0에게 한국어에서 쉼표를 어디에 넣어야 하고 어디에 넣지 말아야 하는지 설명할 필요가 없었던 것처럼 말이죠. 생성 AI 모델은 이러한 것들을 스스로 학습한 것입니다. 그리고 여기에 필요한 것은 엄청난 양의 컴퓨팅 파워입니다.

위에서 소개한 OpenAI 연구 논문에는 흥미로운 세 가지 데모가 등장합니다. 아래를 보시지요.

(위 논문에서 동영상을 실제로 보실 것을 추천합니다. The Core 편집툴은 동영상 삽입을 지원하지 않습니다 ㅠㅠ, 위는 스크린 샷입니다. *추가: 아래 트윗에서 위 세 개 영상을 확인할 수 있습니다.)

연구 논문의 세 가지 데모는 동일한 프롬프트가 1배, 4배, 마지막으로 32배의 컴퓨팅 파워로 어떻게 구현되었는지 보여줍니다. AI가 더 많은 컴퓨팅 파워를 가질수록 AI는 현실을 더 잘 이해할 수 있습니다.

하지만 소라는 여전히 많은 오류를 가지고 있습니다. 거의 모든 데모 영상에서 작은 결함과 환각이 나타납니다. 다리가 뒤바뀌거나 사람이 공중에 살짝 떠 있는 등의 현상이 나타납니다.

아래 영상에서 오류를 찾아 보십시요.

위 영상은 샘 올트먼이 유튜버 Mr. Beast를 위해 제작한 것입니다. 참고로 미스터 비스트는 “샘, 나를 노숙자로 만들지 말아요(Sam plz don’t make me homeless)”라며 소라의 능력에 놀라고 있습니다.

위 영상에서  체스 왕이 3개나 존재하고, 체스 보드 위에는 왕이 하나 있습니다. 결정적인 것은 체스 판이 8x8이 아닌 7x7입니다.

이렇게 소라는 세상을 제대로 이해하지 못합니다. 소라 버전 2, 소라 버전 3가 나와도 환각 및 오류는 사라지지 않을 겁니다. 생성 AI 모델이 아무리 훌륭해지더라도 틀릴 수 있다는 가정은 계속 유효합니다.

하지만 이러한 오류 가능성을 늘 가정하고 생성 AI 결과물을 수정하는 것은 우리 인간의 몫입니다. AI가 아니더라도 우리는 일상 생활에서 절대적인 확신보다는 주변 세계에 대해 끊임없이 의심하고 가정을 합니다. 우리는 사다리를 사용할 때 우리 몸무게로 인해 사다리가 부러지지 않을 것 같다고 생각할 때야 비로소 사다리를 사용합니다. 우리는 스위치가 작동하는 것을 본 적이 없는데도 다른 사람의 집 벽에 있는 스위치가 불을 켜고 끌 것이라고 가정하고 스위치를 누릅니다. 그리고 모든 사소한 결정을 내리기 전에 우리는 머릿속으로 이러한 결정의 결과를 간단히 시뮬레이션합니다. 다시 말해 우리 모두는 매일 매일 우리 주변의 세상을 시뮬레이션합니다.

세상을 바꾸기 위해 합성 시뮬레이션이 완벽할 필요는 없습니다. 충분히 훌륭하면 됩니다. 동영상 생성 AI가 '충분히 훌륭한(good enough)' 수준까지 발전하기 위해선 앞으로 더 많은 시간이 필요하다고 생각하신다면, 아래 영상을 보시지요. 불과 1년 전 수준입니다.

앵무새가 이제 말을 할 수 있습니다

지난 2년간 가장 중요한 AI 유행어 중 하나는 '확률적 앵무새'입니다. 언어학자이자 인공지능 회의론자인 에밀리 벤더(Emily Bender)는 2023년 초 생성 AI에 대해 날카로운 비판을 합니다. 벤더의 입장을 소개한 글의 제목은 “인간은 앵무새가 아니다(You Are Not a Parrot)”입니다. 벤더는 생성 AI의 특징을 두 가지로 요약합니다.

  1. 확률만 계산한다.
  2. 자신만의 결론을 도출하지 않고 다른 곳에서 들은 것을 앵무새처럼 따라한다.

벤더가 주장하듯 앵무새가 완전히 틀린 상징 또는 일반화는 아닙니다. 그러나 오해의 소지가 큽니다. 2022년 AI 석학 얀 르쿤(Yann LeCun)은 텍스트로 훈련된 AI는 휴대폰을 테이블 위에 올려놓았다가 테이블을 옮기면 휴대폰이 어떻게 될지 결코 알 수 없다고 말했습니다. 이는 앵무새 상징과 일치합니다. 인간은 누구나 테이블 위에 놓인 휴대폰이 테이블을 이동시키면 함께 움직인다는 것을 알고 있습니다. 생성 AI는 이 정확한 휴대폰과 테이블 사례가 훈련 데이터 어딘가에 설명되어 있지 않는 한 이를 이해할 수 없습니다.

그러나 비디오 생성 AI의 물리학 문제와 마찬가지로 이 격차도 의외로 간단한 방법으로 해결할 수 있습니다. 많은 컴퓨팅 파워를 연결하면 해결할 가능성이 높아집니다.

GPT-4.0과 아래와 같은 대화를 나누었습니다.

2022년 얀 르쿤이 지적한 문제를 GPT-4.0은 위의 예처럼 해결하고 있습니다. 그렇다면 AI를 계속해서 앵무새라고 할 수 있을까요?

우리는 아직 생성 AI의 내부 작동 원리를 정확하게 이해하지 못하고 있습니다. 당연히 소라의 작동 원리도 위에서 소개한 연구 논문 이상 알지 못합니다.

생성 AI 나아가 소라의 작동원리를 알지 못하지만 생성 AI와 소라는 앵무새 이상입니다. 그리고 생성 AI는 아직 개발 초기 단계입니다. 샘 올트먼은 현재 생성 AI의 수준을 ‘흑백 TV’와 유사하다고 말합니다. 우리는 가까운 미래에 컬러 TV 수준의 AI를 만나게 될 것입니다. 어쩌면 아이폰 15 수준의 AI가 우리 앞을 곧 찾아 올 수 있습니다.