2022년 11월 30일 오픈AI가 챗GPT를 공개한 이후 8개월의 시간이 흘렀습니다. 이 글은 지난 8개월 동안 거대언어모델 흐름을 정리하고 있습니다.
- 블랙박스: LLM은 블랙박스라는 구조성을 가지고 있습니다. 이 특성은 인터페이스에서 강화될 수도 있고 약화될 때도 있습니다(인터페이스에 대해서는 글 마지막에서 설명하겠습니다). 챗GPT는 채팅 출력/결과에 추론 및 합성의 단서를 제공하지 않습니다. 이는 챗GPT 인터페이스에 대한 오픈AI의 의도적 결정입니다. 채팅 인터페이스가 반드시 지금처럼 보일 필요는 없습니다.
- 이러한 블랙박스 특성 때문에 채팅 결과는 훨씬 더 마법처럼 보입니다. 오픈AI는 챗GPT가 이용자 규모가 폭발적으로 확대될지 예상하지 못했을 겁니다. 그러나 마법처럼 보이려는 것은 오픈AI의 의도적 (마케팅) 결정이었습니다.
- LLM에 번호를 매기는 것을 얼마나 유용할까요? 챗GPT는 GPT-3을 RLHF(인간 피드백을 통한 강화학습)로 업그레이드한 LLM입니다. 때문에 챗GPT는 GPT-3.5라고 부르기도 합니다. 챗GPT를 공개하면서 곧 GPT-4를 공개할 것이라는 발표는 매우 영리한 마케팅이었습니다.
- 모댈 유형 및 "거대/대규모": 2023년 4월 오픈AI 대표 샘 알트만은 더 큰 모델이라고 품질이 더 좋아지지 않을 것이라고 말했습니다(TechCrunch 보도). 마치 GPT-5에 대한 기대와 우려를 꺾으려는 시도처럼 들렸습니다. 그러나 샘 알트만의 '사이즈' 주장은 GPT-5가 아니라 GPT-4를 대상으로 한 것이었습니다. 아마도 오픈AI의 거대 트란스포머(Transformer) 모델의 한계는 GPT-3에서 도달했을 것입니다. 따라서 오픈AI는 GPT-3.5에는 RHLF를 사용했고, GPT-4의 아키텍처를 비밀에 부쳐두었습니다.
- GPT-4: 오픈AI는 GPT-4의 훈련과 구조에 대해 공개적으로 아무말도 하지 않았습니다. 그 이유 중 하나는 분명합니다. GPT-4는 하나의 거대한 덩어리(monolithic) 모델이 아닙니다. GPT-4는 여러 개의 작은 모델로 구성되어 있습니다. 이른마 MoE(Mixture of Experts)입니다. 풀어 설명하면 GPT-4는 일반적으로 훈련된 거대 언어 모델인 GPT-3의 어깨 위에 올라 선 전문가 혼합 모델(MoE)입니다. 이렇게 하면 개발에 있어 집중과 조정이 더 쉬워집니다. 따라서 MoE는 앞으로 거대언어모델 개발에서 큰 잠재력을 가지고 있다고 평가할 수 있습니다. 또한 MoE는 분업의 가치를 이야기합니다. 마치 마이크로서비스(micro services)와 비교 가능합니다. 나아가 MoE에서 중요한 것은 학습을 위한 가능한 많은 '전문 지식 도메인'을 확보하는 일입니다.
- 트위터, 레딧(reddit) 등 UGC 플랫폼에 접근 가능한 API는 거대언어모델 학습에서 점점 더 사용하기 어려워지고 있습니다. 오픈AI의 GPT를 비롯 복수의 거대언어모델이 레딧의 데이터베이스를 학습에 이용했다는 사실이 알려졌습니다(뉴욕타임스 보도). 자연스러운 결과는 이러한 데이터에 접근할 수 있는 API가 차단되거나 API 이용 가격이 상승하는 겁니다. 이미 이를 활용한 오픈AI에게는 문제가 발생하지 않지만 그 이후 모델은 동일한 수준의 품질에 도달할 수 있는 다른 방법을 찾아야 한다는 것을 뜻합니다. 이러한 맥락에서 네이버 블로그 및 카페 그리고 다음 블로그 및 카페에 대한 접근권을 어떤 거대모델이 확보했는가라는 점도 흥미로운 지점입니다.
- 독점적 (전문) 데이터 접근권: 23년 7월 오픈AI는 AP통신과 독점적 데이터 접근권 계약을 체결했습니다(AP통신 보도). 오픈AI는 일반 대중에게 인공지능 및 LLM과 동의어로 인식되고 있습니다. 때문에 이러한 계약이 용이합니다. 오픈AI는 앞으로도 다른 (전문) 데이터 접근권을 확보하는데 큰 이점을 가지고 있습니다. 오픈AI가 MoE에서 앞서갈 확률이 상대적으로 큽니다.
- MoE 접근 방식은 AP통신 사례처럼 고품질의 신뢰할 수 있는 데이터 피드가 많은 곳에서 효과적으로 기능할 수 있습니다.
오픈AI가 확보한 리드는 상황 변화에 따라 달라질 수 있지만 당분간 유지될 것으로 보입니다. 오픈AI 모델은 마이크로소프트 애저(Azure)의 API를 통해 사용할 수 있고 동시에 오픈AI 플랫폼과 플러그인(plugins)을 통해 최종 이용자가 직접 사용할 수 있습니다. 이는 특수한 병렬 플랫폼 상황을 형성합니다.
오픈AI 입장에서 볼 때 현재 모든 것이 계획대로 비교적 순조롭게 진행되고 있습니다. 하지만: