블룸버그GPT, 국내 언론사도 시도할 수 있을까

언론사가 개발한 첫번째 거대언어모델(LLM), 블룸버그GPT. 이것의 등장은 사실 충격에 가까웠습니다. '언론사도 거대언어모델 경쟁에 뛰어들 수 있는 건가?'라는 희망의 메시지를 던진 셈이어서입니다. 자체 모델 개발을 위해서는 막대한 비용과 학습 데이터가 필요하기에 언론사들은 기 구축된 언어모델을 변형, 응용 하는 수준에서 도입 검토를 해온 것이 사실입니다. 하지만 블룸버그GPT의 등장은 언론사들도 이 경쟁에서 의미있는 위치를 확보할 수 있다는 자신감을 불어넣었습니다. 당연히 국내 일부 언론사들도 관심을 보이기도 했고요.

블룸버그GPT처럼 자체 거대언어모델을 가지려면 어떤 조건이 필요한지를 살펴보면서, 국내 언론사의 시도 가능성을 한번 점쳐 보겠습니다.

어떤 모델에서 시작했나 : BLOOM

블룸버그GPT는 그 이름에서부터 GPT 모델을 연상시킵니다. GPT는 정확히는 Generative Pre-trained Transformer,즉 생성형 사전학습 트랜스포머의 약자입니다. 이젠 GPT가 고유명사인지 보통명사인지 헷갈리는 상황까지 왔는데요. 생성을 목적으로 사전학습된 트랜스포머 모델이라면 GPT란 단어를 써도 크게 문제는 없어 보입니다. 블룸버그 GPT도 이러한 맥락에서 사용된 용어입니다.

하지만 기본적인 구조(아키텍처)는 BLOOM이라는 거대언어모델에 기반하고 있습니다. 이 모델은 2022년 7월에 발표된 오픈액세스 모델인데요. 이걸 개발한 그룹 빅사이언스(BigScience)라는 조직이 흥미롭습니다. 전세계 수백 명의 연구원들이 모여 협업을 통해 진행되는 이 리서치 그룹은 공식 법인도 아닙니다. 정말 하나의 프로젝트를 위해 뭉친 연구 그룹이라고 할 수 있습니다. 여기엔 네이버랩스 유럽지부도 참여하고 있습니다.

빅사이언스가 개발하고 공개한 블룸은 인공지능 모델의 깃허브라 할 수 있는 허깅페이스에서 내려받거나 이용할 수 있습니다. 쉽게 말해 공개돼 있는 모델이라는 것이죠. 블룸버그GPT는 이 모델의 아키텍처를 빌려와 학습의 과정을 다시 밟으면서 탄생한 거대언어모델이라고 할 수 있습니다. 아예 0부터 시작한 것은 아니라는 의미입니다.

얼마나 많은 데이터를 확보하고 학습시켰나

아시다시피 거대언어모델을 위해서는 반드시 거대한 규모의 학습 데이터가 필요합니다. 이를 위해 별도의 데이터세트를 구축하게 되는데요. 블룸버그GPT도 이 과정을 따랐습니다. 블룸버그는 'FinPile'이라는 방대한 데이터세트를 구축했는데요. 쉽게 말해 학습을 위한 파이낸스 데이터의 집합공간이라고 할 수 있습니다.

FinPile에는 총 17억5886만 건의 정리된 문서가 쌓여있습니다. 토큰수로 환산하면 3635억 개입니다. 전체 학습한 데이터 분량의 51.27%에 해당하는 규모입니다. 오로지 파이낸스 데이터세트만 이 정도 규모를 확보한 것입니다. 다수가 웹에서 크롤링한 파이낸스 문서였고요, 블룸버그 자체 데이터는 2996만 건 정도로 전체 학습 데이터의 0.7% 정도에 불과합니다.

이외에 전체 학습 데이터의 48.73%에 해당하는 문서들은 공개된 문서를 가져왔습니다. 예를 들면, 깃허브, ArXiv, Wikipedia, YoutubeSubtitles 등등입니다. 이 모델의 목적이 파이낸스 특화된 생성 목적뿐 아니라 일반 지식 생성에도 두루두루 활용하는데 있기에 파이낸스 전용 데이터세트로만 학습 범위를 한정하지 않은 것이라고 합니다.

비용은 얼마나 들었을까?

비용도 궁금한 사항인데요. 이를 정확히 추산하기는 사실상 어렵습니다. 다만 최소 얼마 정도가 투자를 해야 했는가 정도는 확인해 볼 수가 있습니다.

블룸버그GPT를 소개한 논문을 보면, 하드웨어 스택에 대한 정보가 공개돼 있습니다. 일단 학습에 사용된 하드웨어는 AWS(정확히는 Amazon Sagemaker)의 p4d.24xlarge 인스턴스 64개입니다. 이 인스턴스의 가격을 확인해 보면, 1개 인스턴스 기준으로 시간당 비용은 32.77달러였습니다. 64개의 인스턴스를 1시간 동안 동시에 돌린다고 가정하면 2092달러라는 금액이 도출됩니다. 이 많은 양의 데이터를 하루 24시간 동안만 학습했다고 가정하면 5만227달러라는 금액이 나옵니다. 쉽게 말해 모델 학습을 24시간만 돌렸다고 해도 5만 달러(우리 돈 6600만원/일)라는 큰 비용이 지출되는 셈입니다.

물론 모델 학습에만 하드웨어가 동원됐을리는 없을 겁니다. 데이터세트 구축에 들어간 비용도 상당했을 것이고요.  수집된 데이터의 토큰화 단계에도 적잖은 지출이 있었을 겁니다. 기타 공동 연구진의 인건비도 포함됐을 겁니다. 즉 하나의 자체 거대언어모델을 개발하려면 상당한 정도의 재무적 출혈을 감내해야만 한다고 볼 수 있습니다.

블룸버그는 왜 블룸버그GPT를 개발했을까

블룸버그 프로페셔널 서비스의 화면. (출처 : 유튜브)

블룸버그 L.P의 2022년 연 매출액은 120억 달러 정도입니다. 우리 돈 15조원입니다. 블룸버그는 우리에게 블룸버그 뉴스로 친숙하지만 핵심은 역시 블룸버그 전문 서비스(Bloomberg Professional Services)입니다. 블룸버그 터미널로 잘 알려져 있죠. 이 프로덕트의 매출이 블룸버그LP 수익의 85%를 차지할 정도입니다.

블룸버그GPT는 바로 이 서비스 프로덕트를 위해 개발됐습니다. 품질 테스트를 한 3가지 사례를 통해 용도를 추정할 수가 있는데요. 1) 블룸버그 쿼리 언어 생성 2) 뉴스 헤드라인 생성 3) 재무금융 QA 입니다. 블룸버그 쿼리 언어 생성은 예를 들어 블룸버그GPT에 "애플의 주가와 시가총액을 얻을 수 있는 쿼리를 알려줘"라고 입력하면 "get(px_last,cur_mkt_cap) for ([AAPL US Equity'])"를 알려주는 방식입니다.

저는 블룸버그 터미널(프로페셔널 서비스)를 써보진 않았지만 상당히 복잡한 구조로 돼 있는 것으로 알고 있습니다. 특히 재무금융 관련 정보가 총 망라돼 있는데요. 복잡한 쿼리를 잘 입력하면 쉽게 필요한 정보를 획득할 수가 있다고 합니다. 사용법이 쉽지 않아서인지, 유튜브에 다양한 튜토리얼도 올라와 있더군요. 블룸버그 터미널을 잘 활용하려면 이러한 쿼리 언어에 친숙해져야 하는데, 블룸버그GPT가 이를 보조해 주게 되는 셈입니다. 숀 에드워즈(Shawn Edwards) 블룸버그 CTO는 공개된 블로그에서 "BloombergGPT를 통해 다양한 새로운 유형의 애플리케이션을 처리할 수 있으며, 각 애플리케이션에 대한 맞춤형 모델보다 훨씬 더 높은 성능을 바로 사용할 수 있고 출시 시간도 단축할 수 있습니다"라고 활용 방안을 설명하기도 했습니다.

결국 블룸버그 프로페셔널 서비스의 시장 확대, 다시 말해 진입 장벽을 낮추는 데 주된 개발 목적이 있는 듯합니다. 전체 매출액의 85%를 차지하는 제품이기에 수억원 그 이상을 들여서라도 개발할 필요가 있었던 것이죠.

한국 언론사들이 자체 거대언어모델 개발을 시도할 수 있을까

이제 첫 질문을 돌아가야겠습니다. 블룸버그GPT는 대형 언론사들, 대형 미디어그룹도 그들의 목적에 따라 거대언어모델 개발 경쟁에 뛰어들 수 있다는 가능성을 보여줬습니다. 존스홉킨스대 컴퓨터과학부와 협업한 결과물이긴 하지만 자체 연구 인력으로 500억 파리미터급의 거대언어모델을 개발한 건 대단한 사건이라고 할 수 있습니다. 미디어그룹도 오픈액세스 혹은 오픈소스 모델을 활용하면 충분히 경쟁력 있는 언어모델을 만들어낼 수 있다는 점을 입증한 것입니다. 하지만 상당한 비용 지출이 수반되기에 반드시 고려해야 할 점이 있습니다.

  • 명확한 장기적인 용도 : 기존 거대언어모델의 API로 작동시키는 방식이 아니라 자체 모델을 구축하는 것은 앞서서도 강조했다시피 상상 이상의 비용을 필요로 합니다. 따라서 명확한 용도가 정의돼 있지 않다면 자체 모델을 구축은 낭비가 될 수 있습니다. 블룸버그GPT는 블룸버그 프로페셔널 서비스라는 핵심 제품이 존재하고 있고, 이것으로 인한 수익이 전체의 85%를 차지할 만큼 중요한 자산이기에 큰 비용을 들여서라도 개발할 필요가 있었을 겁니다. 또한 블룸버그 프로페셔널 서비스의 경쟁력을 강화하기 위해서라도 충분히 고려해 볼 만한 프로젝트였다고 말할 수 있습니다.
  • 투자 대비 수익 : 이미 알려져 있다시피 블룸버그 프로페셔널 서비스의 연 사용료는 6000만원 내외입니다. (3000만원대부터 출발하는 상품이 있기도 합니다.)때문에 기업들의 최고위급 임원들이나 재무 담당자, 외환 및 리스크 관리 담당, 기업투자전략부서 담당 등이 주된 고객이 될 수밖에 없습니다. 기관 투자자들에게 프로페셔널 서비스는 필수품이라고 인정받을 만큼 상당한 품질 경쟁력을 자랑하고 있습니다. 블룸버그GPT의 개발로 사용료를 추가하거나 고객을 확대할 수 있다면 수십, 수백억원에 달하는 개발 비용을 충분히 회수할 수가 있을 겁니다. 게다가 블룸버그 뉴스룸에도 활용 가능하기에 몇몇의 비용 절감에도 도움을 줄 것입니다. 투자 대비 기대 수익이 어느 정도 가능했기에 상당한 투자를 해서라도 이 프로젝트를 완성한 것이라고 볼 수 있습니다.

이러한 모든 측면을 고려했을 때 국내 언론사들이 자체 거대언어모델 개발에 나설 이유는 그리 커 보이진 않습니다. 먼저 자체 개발할 만한 연구 인력이 부족한 데다, 투자 대비 수익이 불명확하기 때문입니다. 모티베이션이 약하다는 의미입니다. 기존 언어모델을 미세조정하는 수준에서 특화한 모델을 보유하는 것이 오히려 효율적일 수 있습니다.

B2B 수익이 다수를 점유하는 언론사라면 고려할 수는 있을 겁니다. 하지만 블룸버그GPT급의 자체 모델을 구축하기엔 재무적 여력이 뒷받침되지 않을 겁니다. 블룸버그LP는 연 매출이 15조원이 넘은 거대 기업입니다. 국내 미디어그룹 가운데 이 절반 정도의 규모를 가진 곳도 존재하지 않는 것이 현실입니다. 따라서 국내에서 비슷한 자체 모델이 등장하길 기대하는 건 조금은 무리가 아닐까 생각됩니다.

참고 문헌

  • Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., ... & Manica, M. (2022). Bloom: A 176b-parameter open-access multilingual language model. arXiv preprint arXiv:2211.05100.
  • Wu, S., Irsoy, O., Lu, S., Dabravolski, V., Dredze, M., Gehrmann, S., ... & Mann, G. (2023). BloombergGPT: A Large Language Model for Finance. arXiv preprint arXiv:2303.17564
Newsletter
디지털 시대, 새로운 정보를 받아보세요!
작가와 대화를 시작하세요
1 이달에 읽은
무료 콘텐츠의 수

디지털 비즈니스의 핵심 인사이트만 전달하는 필수 구독

월 구독료 11,000원(부가세 포함)으로 모든 글을 빠짐없이 읽으실 수 있어요!

Powered by Bluedot, Partner of Mediasphere
닫기
Shop