딥시크에 대한 엄청난 양의 소음(noise)가 발생하고 있습니다. 이 소음으로 딥시크가 가지고 있는 두 가지 의미(signal)가 덮여지고 있습니다. 이 글은 딥시크의 두 가지 매우 중요한 신호를 정리한 글입니다.
R1은 10분의 1 사용 비용과 오픈소스 모델로 OpenAI o1 수준에 도달했습니다. R1이 왜 중요한지, 무엇이 특별한지 그리고 AI 경제 환경 변화에 따른 승자와 패자가 누가될 것인지는 아래 글에서 자세히 설명하고 있습니다.
승자와 패자를 다시 한번 요약하면 다음과 같습니다.
승자
- 화웨이(Huawei): R1은 화웨이 어센드(Ascend) 칩을 직접 지원합니다. 딥시크 모델은 중국 칩 산업을 보완하는 제품 또는 서비스입니다. 중국 정부는 본격적으로 AI 실크로드를 시작할 것입니다. 따라서 딥시크는 예측하기 어려운 지정학적 영향을 만들어 낼 것입니다. AI 실크로드 또는 딥시크와-화웨이 생태계에 대해서는 후술하겠습니다.
- 대규모 클라우드 사업자(Hyperscaler): 아마존 AWS, 마이크로소프트 Azure, 구글 Cloud
- 래퍼(Wrapper): 오픈소스 모델은 소프트웨어의 소스 코드가 공개되어 있어서, 누구든지 자유롭게 소스 코드를 열람하고 수정하거나 재배포할 수 있습니다. 공개된 소스 코드를 기반으로 딥시크를 쉽게 활용할 수 있도록 중간에 ‘포장지(Wrapper: 래퍼)’ 역할을 해주는 다양한 딥시크 응용 모델이 등장할 것입니다. 이는 한국 경제에도 좋은 소식입니다.
패자
- OpenAI: 거대한 가격 경쟁 압박을 받고 있습니다. OpenAI o3 (mini)의 신속한 출시는 가격 경쟁을 벗어나기 위한 조치 중 하나입 니다. 그러나 곧 OpenAI는 구독료를 낮출 수 밖에 없을 것입니다.
- Anthropic Claude: 성능은 뛰어나나 OpenAI와 같은 브랜드 가치를 구축하지 못했습니다. Anthropic은 매우 힘든 시기를 겪을 것입니다.
승자이자 동시에 패자:
- 엔비디아: R1과 같은 효율적인 모델은 중장기적으로 AI 컴퓨팅 수요를 감소시키기 보다는 오히려 증가시킬 것입니다(제본스 역설). 제본스 역설이 작동하는 전제 조건은 ‘원자재’의 가격 탄력성이 높은 경우입니다. AI 추론은 가격 탄력적입니다. 10분의 1 비용으로 AI 모델을 활용한다고 해서 컴퓨팅 파워가 10분의 1만 필요한 것은 아닙니다. 훨씬 더 많은 AI가 모든 곳에서 사용될 수 있습니다.
첫 번째 신호: R1은 중국 및 화웨이(Huawei) 생태계를 강화합니다
R1은 추세선의 한 포인트에 불과합니다. R1은 보다 효율적인 AI 모델을 향한 큰 발걸음입니다. 이러한 발전은 2022년 11월 30일 ChatGPT 서비스가 등장한 이후 계속 진행되어 왔습니다. RI은 이 방향에서 하나의 놀랍도록 큰 발걸음입니다. R1은 곧 R2, R3로 이어질 것이 분명하며, OpenAI ChatGPT, 구글 Gemini, Anthropic Claude, x.AI의 Grok, 메타의 Llama, 프랑스 Mistral 등 이 발전의 추세선에 위치할 것입니다. 규모의 경제, 학습 효과, 비용 함수의 변화 등이 이 추세선을 움직일 것입니다.
딥시크의 R1은 최초의 좋은 중국 AI 모델이 아닙니다. 또한 마지막 중국 AI 모델도 아닐 것입니다. R1은 오픈소스 모델, 추론 품질 개선, 비용 절감, 주요 AI 플레이어로서 중국 등 몇 가지 트렌드를 AI 추세선에서 가속화했습니다.
- 중국 정부는 V3와 R1이 오픈소스로 제공되는 것은 왜 (사후) 허가했을까요? 딥시크는 전 세계에 자사 모델을 공짜로 제공했습니다. 다양한 국가에서 다양한 AI 서비스 기업이 V3와 R1을 재포장(Wrapper)해서 제공할 때 중국 반도체 산업도 ‘규모의 경제’라는 성장의 기회를 얻을 수 있기 때문입니다.
- 여기서 반드시 기억해야하는 것은, 데이터센터는 AI 모델 훈련에도 기여하지만 데이터센터의 가장 큰 목적은 AI 추론 또는 AI 서비스 운영에 있습니다.
- AI 모델 훈련은 초기 비용이고, 추론은 투자활용도입니다. 컴퓨팅 파워가 있는 곳에 매출이 있고, 매출이 있는 곳에 비즈니스가 앴습니다.
- 중국에서 호스팅되는 딥시크 공식 서비스는 화웨이 어센드 910C에서 작동합니다.
- 알리바바 Qwen (2.5)를 비롯 모든 중국 AI 모델 공급업체는 엔비디아가 아닌 화웨이 칩에서 AI 모델을 최적화하는 방향으로 움직이고 있습니다.
- Tom’s Hardwarr에 따르면 Ascend 910C는 성능면에서 엔비디아 H100가 유사하다고 합니다. 여기서 수율은 부차적인 문제입니다.
- 딥시크는 AI 모델 훈련에서 엔비디아 AI 칩을 사용했습니다. 또한 딥시크는 V3 훈련에서 OpenAI GPT-4의 도움-증류-을 받은 것은 확실해 보입니다. 그러나 이는 부차적인 문제입니다.
- 그러나 진정한 딥시크로 인한 AI 추세선의 변화는 추론과 AI 사용에 있습니다.
- The Core는 Deepseek V3와 엔비디아 코스모스: 합성 데이터의 위력에서 딥시크를 AI의 테무라고 주장했습니다.
- 중국의 저가 마켓플레이스인 테무(Temu)와 쉬인(Shein)은 다양한 해외 시장을 잠식하고 있습니다. 특히 가처분소득이 낮은 국가, 즉 동남아, 남미 등 개발도상국에서 인기가 더 높습니다. 참고로 미국과 유럽에서 테무와 쉬인의 성장세도 위협적입니다. 가처분소득이 낮은 국가의 소비자는 ‘동일한’ 제품을 더 저렴하게 판매하는 공급업체 또는 마켓플레이스를 더 잘 받아드립니다.
- AI에서도 비슷한 현상을 발생할 가능성이 매우 높습니다. R1은 사용 비용이 저렴하지만 OpenAI o1과 비슷한 결과를 제공합니다. 이는 한국 소비자에게도 좋지만 나이지리아, 브라질 같은 시장에서 훨씬 더 큰 경제적 매력을 제공합니다.
- AI 칩도 마찬가지입니다. 개발도상국 데이터센터는 고가의 엔비디아 AI 칩보다 더 저렴한 화웨이 칩을 선호할 가능성이 있습니다. 물론 이는 딥시크 오픈소스 생태계가 얼마나 빠른 속도로 확산되는가에 따라 달라질 수 있습니다.
- 교육 및 비즈니스에 AI 프로젝트를 도입하고자 하는 개발도상국에는 어떤 선택 옵션이 있을까요? BYD 등 중국 전기차 기업이 가장 강력한 힘을 발휘하고 있는 시장은 브라질과 태국입니다. 브라질과 태국도 AI 경제 활성화에 대한 절박한 수요를 가지고 있습니다. 그러나 이들 국가의 경제력에는 제한이 있습니다. 이들 국가는 어떤 선택을 할까요?
- 중국 정부는 이를 통해 AI 실크로드를 형성하고자 할 것입니다. 중국은 AI 모델 오픈소스 생태계와 AI 칩 공급망을 통해 독자적인 AI 칩 산업을 구축하고자 하는 강력한 동기를 가지고 있습니다. 미국은 이러한 중국을 고립화시키기 위해 더욱 노력할 것입니다. 결과적으로 이는 엔비디아의 시장 및 잠재적 시장을 축소시킬 수 있습니다.
- 중국이 향후 10년 내에 AI 실크로드 방식으로 국제 반도체 산업에서 자립할 수 있다면, 사실상 타이완/대만에 대한 중국의 침략을 막을 수 있는 것은 아무것도 없습니다. 유감스럽게도 심각한 지정학 갈등이 발생할 가능성이 증대할 것입니다.
- 때문에 딥시크-화웨이 조합은 경제적으로 그리고 지정학적으로 막강한 후폭풍을 불러올 것입니다.
두 번째 신호: 인터페이스의 추론 토큰
R1은 오픈소스로 제공되기 때문에 많은 변화를 가져올 것입니다. 2024년 9월 OpenAI가 첫 번째 추론 모델인 o1을 선보였을 때 AI의 패러다임 전환을 가져왔습니다. o1은, ‘질문 입력 이후 계산 시간’으로 표현되는 추론 시간에 집중함으로써 출력 품질이 비약적으로 향상될 수 있음을 보여주었기 때문입니다. AI 모델에서 추론(inference)의 추론(reasoning)은 AI 모델이 문제를 해결하기 위해 실행하는 평가 피드백 루프입니다.
- o1이 가져온 AI 패러다임 전환의 의미는 ① 책 AI 에이전트 시대 경제의 주인이 바뀐다 또는 ② The Core 글 OpenAI o1: 새로운 패러다임의 시작을 참조하세요.
여기서 OpenAI o1 그리고 o3의 중요한 특징이 있습니다. OpenAI 추론 모델은 이른바 추론 토큰을 공개하지 않습니다. 이와 달리 R1은 거대언어모델이 최종 답변을 평가하고 생성하기 위해 생성해야 하는 추론 토큰도 출력합니다.
아래 그림에서 빨간 박스에 들어있는 것이 추론 토큰입니다. 제가 질문을 입력했고 R1은 답변을 제시하기에 앞서 추론하는 과정을 공개하고 있습니다.
이 추론 토큰은 두 가지 중요한 효과를 가지고 있습니다.
- 인터페이스: 이용자는 AI 모델의 내부 작업에 대해 처음으로 더 많은 인사이트를 얻을 수 있습니다. AI 모델이 어떤 측면을 평가하고, 거부하고, 잘못된 판단을 내리고, 입력 질문에서 어떤 데이터가 불충분했는지 확인하며, 스스로 수정하는지 또는 수정하지 않는지 등을 확인할 수 있습니다. 이는 개인 이용자에게 흥미롭지 않은 투명성입니다. 그러나 Bluedot Intelligence라는 AI 서비스를 개발하고 있는 기업 입장에서는 매우 중요합니다. 가시적 추론 토큰은 2025년 매우 중요한 인터페이스 주제 중 하나가 될 것입니다.
- AI 모델 학습: 출력의 (가시화된) 추론 토큰은 R1과 그 후속 모델(R2, R3 등)을 만드는 데 매우 중요한 기반이 될 것입니다. 추론 토큰에 대한 강화학습도 별도로 진행될 것입니다. 아마 메타 Llama가 곧 선보일 추론 모델 또한 추론 토큰을 가시화할 것입니다.
R1이 한국 AI 경제에 주는 교훈
앞서 강조한 것처럼 AI 경제에서 미국 우위가 깨졌습니다. 이제부터 적어도 두 강대국 간의 AI 경쟁이 본격화될 것입니다. 여기서 한국은 어떤 역할도 못하고 있습니다. 하지만 R1은 한국 AI 경제에 씁쓸하지만 의미있는 교훈을 주고 있습니다.
- 딥시크는 R1을 통해 적은 자원으로도 AI 경쟁을 따라잡을 수 있다는 점을 보여주었습니다.
- R1은 운영 비용이 저렴할 뿐 아니라 가시적 추론 토큰 덕분에 한국 기업이 자체 AI 모델을 증류할 수 있는 훌륭한 기반이 됩니다. R1은 V3를 증류했고, V3는 OpenAI GPT-4o를 중류했습니다. 한국 기업도 적극적으로 R1 래퍼뿐 아니라 R1 증류에 나서야 합니다.
- 한국 기업 또한 딥시크 접근방식을 따른다면 높은 초기 비용 없이도 AI 경제를 고도화할 수 있는 자체 AI 모델을 만들 수 있습니다.
- 딥시크는 오픈소스로 AI 모델을 제공하고 있지만 ‘학습 데이터셋’은 공개하지 않고 있습니다. 이는 OpenAI GPT-4o의 증류로만 구성되지 않았을 겁니다. 자체 학습 데이터셋 또한 갖추고 있을 겁니다.
- 학습 데이터셋은 매우 중요합니다.
- 한국 사회에도 ‘AI 데이터 파이프라인’을 만들어야 합니다. 학술 콘텐츠 DBpia 개방을 비롯, 공공 데이터 개방 확대, 한글과 컴퓨터 철폐 또는 소스 공개, 조선시대 서적 디지털화 등등 AI 데이터 파이프라인을 채울 데이터는 아직 많습니다. 나아가 이 AI 데이터 파이프라인에 대한 공적 접근성을 제공해야 합니다.
- 국적을 불문하고 AI 연구자에 대한 대폭적인 정부 지원이 필요합니다. 개별 기업이 AI 연구자에게 높은 연봉을 제공할 수 없다면 부족한 부분을 정부 예산으로 지원해야 합니다.
- 정부 또한 AI 경제에 대한 비전을 제시해야 합니다. AI 경제는 소비자 AI 서비스뿐 아니라 전통 제조업과 시너지 효과를 낼 수 있으며, 자동차 산업, 제약 산업, 방산 산업 등의 질서 변화를 가져올 것입니다. 어떤 내일이 우리를 기다리고 있는지, 우리가 AI 경제를 통해 얻고자 하는 것이 무엇인지 정부와 정치권은 민주적이고 정의로운 그리고 명쾌한 청사진을 제공할 수 있어야 합니다.