예상보다 빨리 현실이 됐다. 이미지 생성 AI가 쓰임새를 찾아가는 데 채 수 개월도 걸리지 않을 거라고 누가 상상했을까. 텍스트 생성 AI와는 그 속도가 비교되지 않을 정도다. 일러스트를 대체하는 용도로 주목받게 될 것이라는 건 누구나 예측했던 바다. 하지만 지금은 그 예측을 넘어 예술가들이 나서 가지각색의 용도를 상상하며 활용의 범위를 넓혀가는 중이다. 마치 모두가 기다렸다는 듯이….
혁신적인 AI 모델로 손꼽혔던 ‘DALL-E2’가 발표된 건 올해 4월1)이었다. 우주인이 달에서 말을 타는 샘플 이미지를 소개하며 AI의 잠재력과 상상력을 동시에 과시했다. 이때만 하더라도 ‘이런 것도 가능하구나’ 하는 수준이었다. 인류의 찬사를 얻기 위해 의도적으로 공개한 기술처럼 보이기까지 했다. DALL-E2 코드에 대한 접근은 제한적이었고, 기술적 가능성 또한 설계자만 이해할 수 있었기에 더욱 그랬다.
대중화의 문을 열어젖힌 건 ‘크레용(Craiyon)’이었다. ‘DALL-E mini’라는 이름으로 출발했지만 DALL-E 모델을 개발한 오픈 AI(OPEN AI)측의 항의를 받고 곧 타이틀을 교체했다. 우스꽝스럽고 유쾌한 실사 합성 이미지를 생성하는데 훌륭한 결과를 보여준 크레용(Craiyon)은 공개 직후 밈(meme)을 타며 전 세계로 퍼져나갔다. 이미지의 디테일이 떨어진다는 혹평도 있었지만 장난감으론 제격이었다. 하지만 상업적 활용 가치를 증명한 건 뭐라 해도 미드저니(Midjourney)2)였다. 공개 버전이 발표된 지난 7월부터 예술가들의 보조도구처럼 다뤄졌다. 베타 버전 단계에서 누구나가 이용할 수 있도록 열어 두었고, 그 사이에 생성된 이미지들이 인터넷을 떠돌았다. 유료로 전환한 뒤에도 미드저니(Midjourney) 커뮤니티는 문전성시를 이뤘고, 지금도 많은 예술가들은 이 모델을 돈을 주고 사용하고 있다.
그 가운데 스테이블 디퓨전(Stable Diffusion)은 이미지 생성 AI의 백미라 할 만 하다.
블루닷에이아이의 공동창업자 겸 대표이자, 더코어의 미디어 전담 필자입니다. 고려대를 나와 서울과학기술대에서 박사과정을 수료했습니다. 언론사와 다음커뮤니케이션을 거쳐, 미디어스타트업 엑셀러레이터 '메디아티'에서 이사로 근무했고 구글에서 티칭펠로, 뉴스생태계 파트너십 경험도 쌓았습니다. '트위터 140자의 매직', '혁신저널리즘'(공동저작), '사라진 독자를 찾아서', 'AI와 스타트업', 'AI, 빅테크, 저널리즘' 등을 집필했습니다.