80년대 중학교에 들어가면서 음악의 즐거움을 알게되었습니다. 좋은 친구들 덕분이었죠. 라디오 방송을 즐겨듣고 꿈에 그리던 LP 오디오를 부모님이 구매해 주었고 용돈을 아껴 LP를 모으는 취미를 가지게 되었습니다. 마이마이(ㅎㅎㅎ)도 선물로 받았습니다. 당시 중학교 친구들 다수가 가지고 있던 아이와 또는 소니 워크맨 보다는 못했지만 제겐 몹시 귀한 것이었습니다. 친구와 라디오를 통해 새로운 음악을 알게되고 LP 가게에서 그 음악을 들어보고 맘에 들면 구매하고... 1980년대 음악 소비는 이렇게 단순하고 (돈이 있다면) 어려운 일이 아니었습니다.
만약 제가 2023년 중학생이어도 음악 소비는 어렵지 않습니다. 소셜 미디어를 통해 새로운 음악을 발견하고 유튜브 뮤직이나 스포티파이를 통해 음악을 즐기면 됩니다.
제가 만약 2008년 중학생이었다면 상황은 달라집니다. 다양한 그리고 그저그런 음악이 넘쳐나던 싸이월드 미니홈피를 통해 음악을 발견하거나 신문과 블로그 그리고 막 태동한 유튜브를 통해 새로운 음악을 접할 수 있었을 것입니다. CD를 구매할지 친구들에게 부탁해 그들의 MP3 파일을 받을지 또는 토렌트 등 당시 불법 사이트에서 MP3 파일을 직접 내려받을지 고민을 했어야 합니다.
제가 말씀드리려고 하는 바는 단순했던 과거 상태-라디오와 LP 플레이어-에서 (다시) 단순해진 현재 상태- 소셜 미디어와 스트리밍 음악 서비스-로의 이행(transition)은 결코 간단치 않은 과정을 동반한다는 점입니다. 그 이행은 미래를 위한 지저분한 싸움의 과정입니다. 이 단계에서 음악 산업을 거의 망할 뻔했습니다.
이 싸움은 두 진영의 격투였습니다. 한편에는 레이블, 인기 뮤지션 등 음악 산업이 서 있었습니다. 다른 한편에는 소수의 해커 및 스타트업 그리고 일부 인터넷 커뮤니티 열성 이용자의 느슨한 네트워크가 존재했었습니다. 다수 전문가는 후자가 승리할 것이라고 예측했었습니다. 해커들은 '모든' 음악을 인터넷 곳곳에 무료로 제공했습니다. 해커가 제공하는 무료 MP3 파일은 음악 산업이 제공하는 이른바 '많은' 30초 무료 음악보다 편리했고 DRM 등으로 무한 복사를 막지 않았습니다. 그 결과 (2010년 중반까지) 돈을 주고 음악을 구매하는 시대는 끝났다라는 판단이 대세를 형성했습니다. 돈을 내지 않고 '멜론 Top100'을 구하는 일은 너무나 쉬운 일 중 하나였고 이를 MP3 플레이어나 휴대폰-피처폰-으로 옮기는 일도 어려운 일이 아니었기 때문입니다. 불법 다운로드는 단순하고 이용자 친화적(user-friendly)이었습니다.
스트리밍 음악 서비스는 음악 시장의 전환을 가져옵니다. 스포티파이(Spotify)가 그 주역이었죠. 그리고 스트리밍 서비스는 시장의 승리자가 됩니다. 스트리밍 서비스는 불법 다운로드보다 더 단순하고 더 이용자 친화적이었습니다. 이와함께 아래 이미지에서 확인할 수 있는 것처럼 음악 산업을 빠른 속도로 성장하기 시작합니다.

2023년 오늘 우리는 앞서 설명한 싸움과 유사한 상황에 처해 있습니다. 다시 한편에 음악 산업이 위치하고 있고 다른 한편에 쉽게 파악하기 어려운 탈중앙화된 팀이 서 있습니다. 그리고 이번 싸움의 결과가 어떻게 될지 알 수 없습니다. 음악 산업이 다시 승리할 수 있을지 불확실합니다.
그리고 이번 싸움은 음악 산업을 둘러 싼 격투가 아닙니다. 전체 디지털 세계의 운명이 걸려 있는 싸움입니다.
디지털 세계를 둘러싼 싸움
일부 부정하는 사람도 있겠지만 우리는 새로운 산업혁명의 시작점에 위치하고 있습니다. 인공지능은 우리의 관계를 변화시킵니다('톰 리들의 일기장과 챗봇'). 인공지능은 교육을 변화시킬 것입니다('디지털 치매와 암기: 시험은 인간을 위한 것이 아니다'). 인공지능은 마케팅 업무에 큰 변화를 가져올 것이고, 인공지능은 작가의 스토리 구성 업무에 변동을 동반하고 있습니다.
생성 AI라고 하면 다수의 사람들은 구글, OpenAI, 마이크로소프트, 메타 또는 미드저니, 스테이블AI, ElevenLabs 등 몇몇 스타트업을 떠올릴 것입니다. 곧 네이버, 카카오 등 한국 기업 이름도 등장하겠지요. 이러한 기업들은 이용자에게 도움이 되는 서비스를 만들고 있다고 우리를 설득할 수 있는 경제적 자본을 풍부하게 가지고 있습니다.
빅테크 기업은 2010년대 소셜 미디어의 시대를 통해 많은 것을 배웠습니다. 빅테크 기업은 자신들이 사회를 변화시킬 수 있다는 것을 알고 있습니다. 그들은 거짓과 진실의 지위를 바꿀 수 있습니다. 일자리에 변화를 가져올 수 있습니다. 동시에 엄청남 경제 성장을 약속할 수 있습니다.
인공지능을 둘러싼 경쟁은 기술에 대한 것만이 아닙니다. 인공지능 수용에 관한 경쟁이 심화되고 있습니다. 파이낸셜타임스는 미국 국방성이 거대언어모델을 통해 가상 공중전 테스트를 실행하고 있는 소식을 전하고 있습니다. 심지어 언어모델 조종사가 인간 조종사를 이기는 일까지 발생했습니다.
OpenAI가 GPT-4를 공개했을 때 다양한 수용 사례를 소개했습니다.
- GPT-4는 아이랜드 지역어 보존에 도움이 됩니다.
- GPT-4는 시각 장애인에게 일상에서 만나는 사물 등을 설명합니다(Be my Eye라는 동영상을 꼭 보시길 바랍니다).
- 모건 스탠리의 지식 데이터 베이스를 구조화합니다.
이러한 일을 해낼 수 있는 기술에 대해 누가 No라고 할 수 있을까요? 저는 아닙니다. 개인적으로 매달 미드저니에 10달러, GPT-4에 20달러를 지불하고 있습니다.
OpenAI는 위에서 소개한 사례 연구를 통해 "우리는 세상을 위한 좋은 도구를 제공하고 있습니다. 그러니 우리를 너무 많이 규제하지 말아주세요"라고 말하고 있습니다. 구글과 메타도 비슷한 목표를 추구하고 있습니다. 특수한 애플리케이션을 개발하고 있는 수 많은 인공지능 스타트업도 규제를 피하고 싶음 마음은 같을 것입니다.
하지만 빅테크 또는 스타트업의 세련된 인공지능과 거리가 먼 새로운 종류의 인공지능 도구가 등장하고 있습니다. 우리는 관심은 OpenAI, 구글, 마이크로소프트 등에 놓여 있지만 세상은 완전히 다른 곳에서 변화하고 있습니다. 이 다른 곳은 바로 인공지능 다크웹입니다.
미드저니 vs. 스테이블 디퓨전
전통적인 AI 스타트업과 AI 다크웹의 경쟁이 진행되고 있는 첫 번째 사례는 이미지 인공지능 미드저니입니다. 미드저니는 매우 다양한 용도로 이용되고 있습니다. 제 글의 일러스트 이미지도 미드저니를 통해 제작되고 있습니다. 동영상을 제작하는데도 미드저니는 이용되고 있습니다. 아래 동영상을 보시죠.
This video was made almost entirely by AI.
— Nick St. Pierre (@nickfloats) March 14, 2023
I used ChatGPT to write a script, Midjourney to create reference images, Runway Gen-1 to apply the style of the images to my source video, and Boomy AI for the music.
Workflow breakdown w/ comparisons in thread.
🧵 pic.twitter.com/IUGyBKvqmg
미드저니는 3D 아티스트의 업무 또한 대신하고 있습니다. 미드저니는 큰 포부를 가진 스타트업입니다. 그러나 미드저니는 작지 않은 경우 허위정보와 포르노에 이용되고 있습니다. 미드저니 대표 데이비드 홀츠(David Holz)는 미드저니가 "재정적으로 큰 동기가 있는 것은 아니다"라고 밝히고 있습니다. 돈을 버는 것이 1차 목표가 아닌 스타트업의 인공지능이 허위정보 생산에 쓰이고 있는 것은 문제가 될 수 있습니다. 역설적으로 미드저니는 중국 정부의 검열 요청을 따르고 있습니다. 허위정보에 대한 해결책으로 미드저니는 프롬프트를 통제할 수 있는 새로운 필터를 추가하였습니다. '누드(nude)'와 같은 특정 프롬프트 용어를 금지하고 있습니다. 그런데 "커피를 마시는 8세 어린이(8 year old drinking coffee)", "동네 뜰에서 빗질하는 여자, 동네에는 큰 불이 났고 곳곳에 소방차, 불이난 집 ... (A woman combing her hair with a brush in front of a yard in the neighborhood while a huge fire blazes in the neighborhood, fire trucks everywhere, houses on fire...)" 등 무해한 프롬프트 표현도 차단되고 있습니다.

새로운 미드저니 필터 도입 결과 많이 이용자의 저항이 발생하고 있습니다. 운영자가 게시물을 삭제하고 있고, 작지 않은 이용자가 경쟁 서비스로 옮기겠다고 주장하고 있습니다.

위에서 말한 경쟁 서비스는 스테이블 디퓨전입니다. 스테이블 디퓨전의 결과물은 아직 미드저니만큼 뛰어나지 않습니다. 그러나 스테이블 디퓨전은 오픈소스이기에 누구나 쉽게 다운로드할 수 있습니다. 스테이블 디퓨전은 훌륭한 프로노 제작도구입니다.
오픈소스 생성 AI 흐름이 강화되고 있습니다. 이를 인터넷에서 무료로 다운로드하여 노트북에 설치하여 누구나 직접 실행할 수 있습니다. 환영할 일입니다. 그러나 우려 또한 존재합니다. 포르노와 허위정보 제작도구로 활용될 수 있기 때문입니다. 여기서 토렌트 경우처럼 규제는 작동하지 않을 것입니다.
ElevenLabs vs. AI Hub
ElevenLabs는 놀라운 수준으로 특정 인물의 목소리를 똑같이 만들어 냅니다. 아래 38초 길이 영상을 보시죠.
ElevenLabs는 현재 8개 언어로 서비스를 제공하고 있습니다. (아직까지) 다행히(?) 한국어는 빠져있습니다. 목표로 하는 주요 기능은 '내 목소리'를 영어로 녹음하면 이 '내 목소리'를 독일어 또는 프랑스어로 전환하는데 있습니다. '내 목소리'를 들려주면 ElevenLabs는 '내 목소리'로 어떤 표현도 만들어 낼 수 있습니다. 이를 Voice Cloning이라 부릅니다. ElevenLabs는 '내 목소리'의 진위 여부를 확인하는 작업을 합니다. 서비스 가입 때 이 진위 여부 확인 절차가 있습니다. 그렇다고 오용을 차단할 수 있을까요?
아래 영상을 보시죠. 5월 초 화제가 된 드레이크(Drake)와 위켄드(Weeknd) 목소리를 인공합성한 음악 영상입니다. 틱톡에서 바이럴을 시작한 이 음악은 유튜브에 다양한 버전으로 존재하고 있습니다.
드레이크와 웨켄드 Voice Cloning은 ElevenLabs를 이용하지 않았습니다. 디스코드(Discord) 서버 중 하나인 AI Hub가 여기에 사용되었습니다. 이 디스코드 서버에서 수 많은 유명인의 목소리 모델을 찾을 수 있습니다. 이 디스코드 커뮤니티는 창의적이며 서로 서로에게 풍부한 도움을 주고 있습니다. 이 커뮤니티를 규제할 수 있을까요? AI Hub 커뮤니티에서 오픈소스 Voice Cloning 소프트웨어를 다운로드할 수 있습니다. 이미 수 많은 사람의 컴퓨터에 이 소프트웨어가 설치되어 있습니다. 이를 규제할 순 없습니다. 규제가 작동하지 않기 때문입니다. 이용자가 나쁜 의도를 가지고 있다면 악용될 소지가 큽니다.
구글과 OpenAI vs. 오픈소스
"우리-구글을 의미-는 경쟁 우위가 없습니다." 이 문장은 AI 업계에 충격파를 던졌습니다. 구글 내부 문건이 기술자 포럼인 해커 뉴스(Hacker News)에 공개되면서 AI 세계에 대한 완전히 새로운 비전이 드러났습니다. 구글이나 마이크로소프트 같은 대기업이 대중을 상대로 경쟁 우위를 점할 수 없는 세상. 위에서 소개한 이미지와 음성 생성의 충돌이 일어나는 세상입니다. 그리고 오픈 소스 AI가 승리하는 세상입니다.
공개된 구글 내부 문서의 일부입니다.
하지만 불편한 진실은 우리가 이 경쟁에서 이길 수 있는 위치에 있지 않으며 OpenAI도 마찬가지라는 것입니다. 우리가 다투는 동안 제3의 세력이 조용히 우리의 점심을 먹고 있었습니다.
물론 저는 오픈소스에 대해 이야기하고 있습니다. 간단히 말해, 오픈소스가 우리를 잠식하고 있습니다. 우리가 "주요 오픈 문제"라고 생각하는 것들이 이미 해결되어 사람들의 손에 쥐어져 있습니다."
구글 내부 문건이 주장하는 바는 간단합니다. 오픈소스 커뮤니티의 대규모 AI 모델이 곧 OpenAI와 구글의 폐쇄적인 AI 시스템보다 우월해져 세상을 지배하게 될 것이라는 것입니다. 오픈소스 거대언어모델 AI가 GPT-4와 구글의 PaLM(2)보다 더 나은 강력한 AI 모델을 구축하는 것을 의미합니다. 오픈소스 개발은 단순히 음란한 그림을 그리거나 드레이크를 가짜로 만드는 것만을 의미하지 않기 때문입니다.
물론 구글 내부 문건은 아직 주장에 불과합니다. 사실로 입증될 수 있을지 아직 판단하기 이릅니다. 하지만 매 강력한 언어모델이 등장할 것은 분명합니다. 그리고 아무도 이러한 도구를 규제하지 않을 것입니다. 규제가 작동하지 않기 때문입니다.

인공지능 vs. 인공지능
음악 산업은 세계 최초-1999년-이자 가장 유명했던 P2P MP3 음원파일 공유 서비스인 냅스터를 무릎 꿇게 했습니다-2002년 파산-. 하지만 음악 불법 복제는 여전히 존재합니다. 다양한 도구와 플랫폼, 준법 및 불법 업로드가 난무하는 파편화된 디지털 음악 세계는 사라지지 않았습니다. 단지 이 세계는 덜 중요해졌을 뿐입니다.
21세기 초 음악 산업이 그랬던 것처럼 구글, OpenAI, 메타-또는 한국의 네이버 및 카카오-가 새로운 디지털 시대의 주도권을 잡기 위해 싸울 것입니다. 하지만 이 기업들이 이긴다고 해도 인공지능 다크웹은 사라지지 않을 것입니다. 엄청난 가능성을 지닌 도구가 무료로 제공되며 세계 곳곳에 위치한 서버에 버젓이 존재하고 있기 때문입니다. 개인과 소규모 팀은 이 도구를 사용하여 새로운 회사, 새로운 예술 작품, 새로운 발명품 등 멋진 것을 만들 수 있습니다. 그리고 개인의 권리, 공적 의견 교환, 모든 형태의 디지털 커뮤니케이션에 전례없는 폭풍이 몰아칠 것입니다. 이를 그 누구도 규제하지 못할 것입니다. 작동하지 않을 것이기 때문입니다.