AI 브리핑: AI 학습데이터 고갈, Humane AI 핀, GPT-5

강정수

2024년 4월 15일

Top Story 1

인터넷이라는 거대한 정보의 바다조차도 인공지능이 필요로 하는 지식을 충족시키기에는 너무 작습니다. 콘텐츠 시장이 해결책이 될 수 있습니다.

여러분을 ‘챗GPT’라는 신동을 세계에서 가장 큰 도서관에 보낸 부모라고 가정하겠습니다. 이제 여섯 살이 된 이 신동은 도서관의 모든 책을 읽어치운 후에도 여전히 배움에 대한 열정으로 가득 차 있습니다.
그러나 더 이상 읽을 책이 없습니다. 사진과 동영상도 다 보았습니다.
부모로서 여러분은 절망합니다. 언젠가 노벨상을 받을 수 있는 잠재력을 가진 아이인데 공부를 계속할 수 없는 상황입니다.
이런 상황에서 부모에게 기발한 아이디어가 떠오릅니다.
부모가 책을 훔쳐 아이에게 주는 겁니다. 작가를 고용해서 아이를 위해 책을 쓰게 합니다. 당근마켓에서 아날로그 사진 앨범을 구매합니다. 그래도 부족하다면 신동 ‘챗GPT’에게 직접 책을 쓰도록 합니다. 아이가 쓴 책으로 아이가 공부할 수 있지 않을까요?
부모의 절박함과 창의성이 아이의 교육과 학습 방법을 탐색하는데 있어 중요한 영감이 됩니다.

이상하게 들리시나요? OpenAI, 구글, 메타 등 세계 주요 AI 기업들이 직면한 현실입니다. Meta는 출판사 Simon & Schuster 인수를 심각하게 고민하고 있습니다. OpenAI는 유튜브 동영상 백만 시간 분량을 텍스트로 변환시킨 Whisper라는 소프트웨어를 개발해서 이를 운영했습니다.

이들 AI 기업은 포토버켓과 같이 이미 잊혀진 디지털 벼룩시장에 뛰어들어 가능한 모든 (이미지) 데이터를 사들였습니다.

AI 기업들은 이미 언어모델 개발에 수십억 달러를 쏟아부은 상황입니다. 이 기업들은 이제 큰 수익을 기대하고 있습니다. 학습 데이터를 더 확보하기 위해 상당한 자금을 투입할 준비도 되어 있습니다. 학습 데이터에 이용될 수 있는 콘텐츠 가격이 상승하고 있습니다. 양질(!)의 콘텐츠 소유권자에게 유리한 상황이 만들어질 수 있습니다.

콘텐츠 제작자에게 공정한 보상을 보장하는 동시에 인공지능 기술 발전을 인류의 이익에 부합하도록 지속시키는 것은 매우 중요한 도전 과제입니다. 그러나 학습 데이터 가격이 상승함에 따라 인공지능 스스로가 인공지능 학습 데이터를 생산하는 이른바 합성 데이터(synthetic data)에 대한 수요도 함께 증가하고 있습니다. 이는 위험한 접근 방식이지만 관련 시도는 멈추지 않을 것입니다. 이 시도가 성공한다면 인공지능 발전에는 한계가 없을 것입니다. 아래 글은 ‘학습 데이터 고갈 현상'과 콘텐츠 사업자의 기회, 합성 데이터와 그 한계 등을 분석하고 있습니다.

참고로 ‘합스부르크 위험'이라는 개념이 존재합니다. 합스부르크 왕실은 혈통을 보존하기 위해 이른바 근친교배(inbreeding) 관행을 일반화했습니다. 이로 인해 유전적 돌연변이 발생 등 가족 구성원의 신체적, 정신적 사망이 이어졌습니다. 비판론자들은 인공지능 학습 데이터로서 합성 데이터를 이용하는 것을 ‘합스부르크 AI’라 부르고 있습니다. 합성 데이터 학습은 정말 위험한 방법일까요? 아래 글에서 확인할 수 있습니다.

Top Story 2

Humane AI 핀이 출시되었습니다. 미국 테크 전문지에서 복수의 리뷰가 게재되었습니다. 이를 요약하면,

기기 가격은 699달러입니다. 월 사용료는 24달러입니다. 참고로 24달러에는 통신비 및 인터넷 망 사용료가 포함되어 있습니다.
장점: 잘 만들어진 기기다. 사진이 훌륭하다. 스마트폰보다 접근성이 쉽다.
단점: 절반만 작동하고, 매우 느리며, 기본 기능이 매우 그리고 많이 부족하다.

699달라는 저렴한 가격이 결코 아닙니다. 그런데 기억할 것이 있습니다. 최초의 매킨토시 가격은 1984년 당시 2,495달러였습니다. 오늘날로 따지면 약 7,300달러 수준입니다. 기본 기능이 빠진 것도 당연한 일입니다. 1세대 아이폰에는 ‘복사 그리고 붙여넣기' 기능이 없었습니다. 1세대 아이폰, 제 기억에는 평가가 좋지 않았습니다. Humane AI 핀의 첫번째 모델은 실패할 가능성이 높습니다. 그러나 새로운 폼 팩터(form factor)는 이전의 모든 기능보다 더 나은 단 하나의 기능만 있으면 됩니다. 성공 여부는 바로 이 기능이 다수 사람들에게 얼마나 중요한지에 달려 있습니다. 예를 들어 1세대 아이폰의 모바일 인터넷 기능은 복사&붙여넣기보다 훨씬 더 중요했습니다. 참고로 당시 미국과 유럽의 망 속도는 2G였습니다.

The Verge외에도 Wired에서도 Humane AI 핀에 대해 부정적 평가를 내리고 있습니다. Wired 리뷰의 결론은 “Humane AI 핀은 소프트웨어 업데이트가 약속된 1년 후 흥미로운 기기가 될 수 있지만, 지금은 파티용 장난감에 불과합니다”입니다.

직접 이용해 보진 못했지만 제 의견은 다음과 같습니다.

Humane AI 핀 생산 준비는 GPT-4 훨씬 이전부터 시작되었습니다. 아마 휴메인 AI는 장기적인 접근을 시도하고 있을 겁니다. 손실도 계획하고 있을 겁니다. 시리즈 C 투자 규모가 1억 달러였습니다. 1억 달러 전체를 날릴 수도 있습니다. 이는 소비자 기기 시장에서 큰 금액은 아닙니다.
AI 핀은 GPT-5와 그 이후에 나오는 모델을 통해 눈에 띄게 향상될 수 있습니다. 현재 판매되고 있는 제품은 GPT-5 출시와 함께 업데이트될 것입니다. 그리고 GPT-5를 내재한 차기 제품이 올해 안에 생산될 가능성도 있습니다.
OpenAI의 샘 올트만은 Humane AI 투자자입니다. 따라서 휴메인은 OpenAI 내부 정보에 대해 매우 직접적인 인사이트를 가지고 있습니다.
구조적 과제는 여전히 많습니다. ‘실수 없는' 인공지능은 (아직) 없기 때문입니다. 생성 AI가 실수를 빠른 속도로 줄이지 못한다면 소비자가 디바이스에 대한 신뢰를 잃을 위험이 존재합니다.

Humane AI 핀과 같은 디바이스가 몇 년 후 아니면 최소한 내년에 출시되었다면 더 유용한 기기가 되었을 것입니다. 거대언어모델의 발전 속도는 미치도록 빠르기 때문입니다. 다시말해 Humane AI 핀은 시장 진입 타이밍을 잘못 선택했을 수 있습니다. 어쩌면 시리/빅스비/알렉사 효과가 발생할 수 있습니다. 다수 이용자가 시리/빅스비/알렉사에 대한 신뢰를 잃은지 오래입니다. 그러나 온 디바이스 AI 기기는 앞으로 어떻게 진화할 수 있을지는 여전히 흥미로운 주제입니다.

2023년 10월 The Core에서 발행된 아래 글을 참조하세요.

헤드라인

Microsoft AI goes to UK! 정확하게는 런던입니다. 마이크로소프트는 런던에 End User를 위한 AI 부서 사무실을 신설했습니다. 런던 사무소는 마이크로소프트가 Inflection AI에서 최근 영입한 AI 과학자 조던 호프만(Jordan Hoffmann)이 이끌게 됩니다. 호프만은 Deepmind의 공동창업자 무스타파 술레이만(Mustafa Suleyman)과 함께 딥마인드와 Inflection AI에서 가깝게 호흡을 맞춰온 인물입니다. 술레이만은 이 런던 사무소가 마이크로소프트의 ‘새로운(!)’ 거대언어모델을 개발할 AI 인재를 모집하는 거점이 될 것이라고 이야기하고 있습니다. 런던 사무소는 앞으로 3년동안 AI 모델 개발을 위한 데이터센터 구축과 AI 경제를 위한 100만 명(!) 인력 양성에 31억 달러를 투자할 계획입니다. 이 100만 명은 다양한 기업에서 일하면서 마이크로소프트의 AI 도구를 업무에 잘 활용할 수 있는 사람을 말합니다.
메타의 새로운 AI 칩: Meta는 AI 모델 학습에 사용되는 새로운 칩을 개발했습니다. "차세대(Next Gen)" MTIA(Meta Training and Inference Accelerator)라는 이름을 가진 칩은 이전 칩보다 3배 더 우수하다고 합니다. 메타의 새로운 칩은 약간 더 크고 에너지를 약간 더 소비하지만-25와트 대신 90와트), 더 많은 메모리를 가지고 있으며 거의 두 배 더 빠릅니다. 칩 제조사는 물론 TSMC입니다. 이 새로운 칩은 이미 메타의 16개 데이터 센터에서 사용 중이며 주로 Llama 3를 훈련하는 데 사용되고 있습니다. 자체 칩을 만드는 곳은 메타뿐이 아닙니다. 구글은 2017년부터 TPU 칩을 개발해 왔고, 마이크로소프트는 Maia 100을, 아마존은 Trainium 2를 개발 중입니다.
OpenAI와 Meta, 생각하고 계획할 수 있는 인공지능 개발 중: 파이낸셜타임스 인터뷰 내용입니다. Meta AI 연구소 책임자 조엘 피노(Joëlle Pineau)는 "우리는 이러한 인공지능 모델이 단순히 말하는 것을 넘어 실제로 생각하고 계획할 수 있도록 만드는 방법을 찾기 위해 열심히 노력하고 있습니다"라고 말하고 있습니다. OpenAI의 운영 책임자인 브래드 라이트캡(Brad Lightcap)은 이 인터뷰에서 차세대 GPT 언어모델(GPT-5)이 논리적 사고와 같은 어려운 문제를 해결하는 데 진전을 이룰 것이라고 말했습니다.