논문의 발표일자는 3월22일. 한국 시간으로 하면 대략 3월23일쯤 될 겁니다. OpenAI의 도움을 얻어 미리 사용하고 평가하고 연구했다고 하네요. 제가 읽어보기에 흥미로웠던 부분은 가장 마지막 결론부에 있는 8가지 제안입니다. GPT-4가 AGI가 되려면 해결해야 할 8가지 과제를 제시했는데요. 아주 어렵지는 않으니 꼭 한번 읽어보시면 좋겠습니다. 역으로 GPT-4의 한계를 이해할 수 있기 때문이기도 합니다.
원 논문은 첨부 자료를 포함해 150페이지가 넘습니다. 제 능력으로 영문으로 된 이 논문을 모두 읽기는 벅찼습니다. 그래서 중요한 챕터만 미리 읽고 번역을 해보았습니다. DeepL의 도움을 받긴 했지만 여전히 부족한 지점이 많아서 보정, 보완도 했답니다. 매일매일 쏟아지는 GPT 소식, 깊게 이해하고 싶은 분이라면 일단 이 번역본이라도 한번 읽어보시길...
- 더코어 미디어 에디터 이성규 드림.
인공일반지능(AGI)의 스파크 : GPT-4의 초기 실험
초록
인공지능(AI) 연구자들은 다양한 영역과 작업에서 놀라운 능력을 발휘하는 대규모 언어 모델(LLM)을 개발하고 개선하여 학습과 인지에 대한 우리의 이해에 도전해 왔습니다. OpenAI가 개발한 최신 모델인 GPT-4 [Ope23]는 전례 없는 규모의 컴퓨팅과 데이터를 사용하여 학습되었습니다. 이 논문에서는 OpenAI가 아직 개발 중이던 GPT-4의 초기 버전에 대한 조사 결과를 보고합니다. 우리는 (이 초기 버전의) GPT4가 이전의 AI 모델보다 더 일반적인 지능을 보여주는 새로운 LLM 코호트(예: ChatGPT 및 Google의 PaLM)의 일부라고 주장합니다. 이러한 모델의 향상된 기능과 의미에 대해 논의합니다. GPT-4는 언어에 대한 숙달을 넘어 수학, 코딩, 시각, 의학, 법률, 심리학 등을 아우르는 새롭고 어려운 과제를 특별한 지시 없이도 해결할 수 있음을 입증했습니다. 게다가 이러한 모든 작업에서 GPT-4의 성능은 인간 수준의 성능에 놀라울 정도로 근접했으며, ChatGPT와 같은 이전 모델을 크게 능가하는 경우가 많았습니다. GPT-4의 기능의 폭과 깊이를 고려할 때, 저희는 이를 인공일반지능(AGI) 시스템의 초기(아직 불완전한) 버전으로 합리적으로 볼 수 있다고 생각합니다. GPT-4에 대한 탐구에서 우리는 그 한계를 발견하는 데 특히 중점을 두었으며, 다음 단어 예측을 넘어서는 새로운 패러다임을 추구해야 할 필요성을 포함하여 보다 심층적이고 포괄적인 버전의 AGI로 발전하기 위한 앞으로의 과제에 대해 논의합니다. 마지막으로 최근의 기술 도약이 사회에 미치는 영향과 향후 연구 방향에 대한 성찰로 마무리합니다.

9. 사회적 영향
GPT-4와 그 후속 기술의 사용은 의심할 여지없이 사회, 사회적으로 큰 영향을 미칠 것입니다. 잠재적인 긍부정적 영향에 대한 불확실성을 고려할 때 이를 사전에 알 수는 없습니다. 잠재적인 긍부정적 영향에 대한 불확실성은 앞으로 만들어질 사용 사례와 애플리케이션, 각 부문에서 확립될 관행에 대한 불확실성을 고려할 때 미리 알 수는 없습니다. 사람과 조직이 기술을 사용하는 방식과 그들이 수립하는 규범과 가드레일이 결과에 영향을 미칠 것입니다. 이 섹션에서는 토론을 촉진하기 위해 몇 가지 주제의 샘플을 제시합니다. 핵심 기술, 특정 용도 및 애플리케이션에 대한 정책과 연구에 정보를 제공하려면 이러한 주제에 대한 심층적이고 광범위한 분석은 물론, 혜택과 비용에 대한 지속적인 모니터링과 반영이 필수적입니다.
GPT-4와 그 후속 버전이 제공하는 추론, 일반화, 상호작용 기능의 비약적인 발전을 활용하는 수많은 애플리케이션이 개발될 것으로 예상됩니다. GPT-4와 그 후속 모델은 인간의 노력 전반에 걸쳐 큰 가치를 제공할 수 있습니다. 이 모델은 의료, 교육, 엔지니어링, 예술 및 과학을 포함한 주요 부문에 새로운 효율성과 역량을 도입할 수 있습니다. 애플리케이션과 사용 사례는 의심할 여지 없이 빠르게 도입될 것이며 제작자에 의해 홍보될 것입니다. 애플리케이션 동작에 다소 거친 부분이 있더라도 잘 매칭된 애플리케이션은 사람과 사회에 더 큰 가치를 제공할 것입니다. 그렇지 않은 애플리케이션과 사용 사례는 부실한 설계, 미개척 시나리오, 신뢰성 및 장애 모드에 대한 고려 부족, 애플리케이션 사용 방식에 대한 영향과 의미에 대한 불충분한 고려 등으로 인해 시기상조이거나 제대로 고려되지 않은 것이 될 수 있습니다. 새로운 기술을 통해 얻을 수 있는 잠재적 가치 외에도 새로운 기술과 관련된 잠재적 비용과 험난한 측면을 고려해야 하며, 단점을 완화하기 위해 사전 예방적, 사후 대응적으로 노력해야 합니다.
잠재적인 사회적 영향과 도전은 추론 능력의 비약적인 발전뿐만 아니라 현재 모델의 한계와도 관련이 있습니다. 새로운 기능의 영향에는 다양한 직종에 걸쳐 사람과 기계가 처리하는 업무의 전환이 포함됩니다. 새로운 형태의 인간-AI 상호작용과 협업을 통해 사람들의 능력을 확장하는 데 이 기술이 활용될 수 있는 큰 기회가 있습니다. GPT-4의 능력은 인간의 노력이 필요한 작업에 대한 인식을 변화시켜 잠재적으로 일자리를 대체하고 더 광범위한 경제적 영향을 미칠 것입니다. 새로운 권한의 다른 의미로는 새로운 허위 정보와 조작 도구를 가진 악의적인 행위자가 등장할 수 있다는 점을 들 수 있습니다. 시스템의 신뢰성과 학습하는 편향성의 결함으로 인해 시스템이 실패하거나 편향성을 보일 때 잠재적인 과잉 의존과 이해 부족으로 인해 문제가 발생할 수 있으며, 기존의 사회 문제를 증폭시킬 수 있습니다.
환각의 문제점을 살펴보겠습니다. 그런 다음 허위 정보와 조작을 위해 GPT-4를 악의적으로 사용하는 사례에 대해 살펴볼 것입니다. 그 후, GPT-4의 놀라운 힘이 일자리와 경제에 미치는 잠재적 영향에 대해 논의할 것입니다. 일자리와 경제에 미치는 영향, 직업에 대한 잠재적 파괴적 영향과 그 힘을 활용할 수 있는 가능성을 고려합니다. 인간의 문제 해결력과 창의력 증진을 위해 이 모델의 힘을 활용할 수 있는 방안에 대해 논의합니다. 그런 다음 새로운 능력에 접근할 수 있는 사람들 사이의 'AI 격차' 발생 가능성에 대한 문제를 논의합니다, 그리고 이러한 모델의 기능을 활용하는 방법을 배우게 됩니다. 또한 개인정보 보호와 사람이 만든 콘텐츠와 기계가 만든 콘텐츠의 출처 증명에 관한 문제도 다룰 것입니다.
9.1. 오류 생성의 문제점
섹션 1에서 수학적, 프로그래밍, 어트리뷰션 및 상위 수준의 개념적 오류를 포함하여 경고 없이 오류를 생성하는 경향이 있는 LLM의 주요 한계에 대해 논의했습니다. 이러한 오류는 종종 합리적이거나 진실한 추론과 일치하는 것처럼 보이는 경향에 따라 환각이라고도 합니다. 잘못된 참조, 내용 및 진술과 같은 환각은 올바른 정보와 얽혀 있을 수 있으며, 설득력 있고 자신감 있는 방식으로 제시되어 면밀한 검토와 사실 확인 없이는 식별이 어려울 수 있습니다. 그림 1.8은 개방형 환각과 폐쇄형 환각의 예를 보여줍니다. 폐쇄 도메인 환각은 주어진 콘텐츠의 맥락이나 기타 제약 조건에서 발생하는 오류로, 일관성이나 정합성을 확인할 수 있는 기회를 제공합니다. 예를 들어, LLM에서 생성된 요약 또는 확장이 원본 자료에서 제공되는 정보와 일치하는지 확인하는 것이 이에 해당합니다. 이러한 폐쇄 도메인에서 환각을 해결하는 방법에는 주어진 사실이나 내용을 넘어서는 불일치 및 모순을 식별하기 위해 LLM 자체를 사용하는 등 일련의 일관성 검사 방법을 사용하는 것이 포함됩니다. 개방형 도메인 환각은 세션 외부에서 검색 및 정보 수집을 포함한 더 광범위한 연구가 필요하기 때문에 더 어려운 과제를 제공합니다. 작가의 허구 문학 창작을 지원하는 등 창의성과 탐구에 중점을 둔 LLM의 사용에는 추론의 진실성이 덜 중요할 수 있습니다. 또한 환각은 명확하고 잘 이해된 근거 자료가 있고 최종 사용자가 세대를 집중적으로 검토하는 주기가 있는 맥락(예: 자신의 콘텐츠를 재작성하는 사람들을 지원하는 경우)에서 더 용인될 수 있습니다.
LLM이 제대로 특성화되지 않은 오류를 생성할 가능성이 있으므로, 진실성과 정확성이 요구되는 도메인에서 사용하기 위해서는 출력물의 정확성을 검토하는 데 주의를 기울여야 합니다. 생성에 지나치게 의존하면 잠재적으로 비용이 많이 드는 오류를 놓치거나 간과할 수 있습니다. 급성 비용 외에도 인식하지 못한 오류는 다운스트림 사용으로 오류를 전파할 수 있습니다. 특히 의료, 교통, 저널리즘, 개인 또는 조직의 행동이나 언어에 대한 귀속과 같이 중요도가 높은 애플리케이션에서는 각별한 주의와 검토가 필요합니다. 후자의 한 예로, 조직 내 기술 작가들이 초기에 ChatGPT를 사용한 결과 출판물에서 주목할 만한 오류가 발생했으며, 이에 대한 보고에 따라 이 기술을 글쓰기 지원에 사용하는 새로운 검토 절차가 마련되었습니다[Lef23]. 여기에는 콘텐츠 생성에 LLM을 사용하는 것에 대한 명확한 표시와 사실 확인을 담당하는 인간 편집자 지정[Gug23] 등이 포함됩니다. LLM을 사용하는 모든 분야의 실무자는 LLM이 생성한 정보를 검증하기 위해 가장 높은 수준의 표준과 관행을 준수해야 합니다.
LLM 도구의 최종 사용자와 생성된 콘텐츠의 소비자 모두 다음 사항에 대해 교육을 받아야 합니다. 신뢰성 문제와 잘못된 출력에 대한 지속적인 경계의 필요성에 대해 교육을 받아야 합니다. 애플리케이션에서 사람과 조직은 품질 보증을 위한 모범 사례를 개발하고 공유해야 합니다. 모범 사례를 개발하고 공유해야 합니다.
9.4 인간의 전문성, 일자리, 경제성
다양한 작업과 영역에서 GPT-4의 놀라운 성능은 전문직과 학술 분야를 아우르는 다양한 역할에서 인간과 기계의 상대적 전문성에 대한 기존의 관념과 가정에 도전할 것입니다. 사람들은 의학이나 법률 분야와 같은 전문직 레벨링 및 인증 시험에서 GPT-4가 얼마나 뛰어난 성능을 발휘할 수 있는지 보고 놀라게 될 것입니다. 또한 질병을 진단하고 치료하며, 새로운 분자를 발견하고 합성하고, 학생들을 가르치고 평가하며, 대화형 세션에서 복잡하고 어려운 주제에 대해 추론하고 논쟁할 수 있는 시스템의 능력에 감사할 것입니다.
GPT-4와 다른 LLM이 보여준 역량은 인간과 기계의 추론이 서로 다른 방식으로 경쟁하거나 보완할 수 있는 고도로 숙련되고 존경받는 직업에 대한 AI의 발전이 미칠 잠재적 영향에 대한 우려를 불러일으킬 것입니다. 더 광범위한 반응과 영향을 예고할 수 있는 연구[RL22]에 따르면 미국 의대생들이 방사선과를 직업으로 선택하는 것은 이미 방사선과에서 AI의 역할이 커지고 있다는 인식에 영향을 받고 있으며, 이러한 인식이 해당 전문 분야를 선택하는 선호도를 크게 낮추는 것으로 나타났습니다. 이러한 결과는 고급 교육이 필요한 직업 전반에서 AI 시스템이 인간 근로자를 대체하거나 지위를 떨어뜨릴 수 있는 광범위한 추세를 반영하는 것일 수 있습니다. GPT-4와 그 후계 기술들이 전문 영역 전반을 종합하고 추론하는 능력은 물론 기계 번역, 요약, 심지어 창의적인 글쓰기까지 수행할 수 있는 능력이 향상됨에 따라 AI에 의한 자동화에 적합한 업무의 범위가 상당히 확대될 수 있습니다. GPT-4와 관련 LLM의 등장은 교육, 훈련, 전문성 개발에 대한 다년간의 투자와 AI의 새로운 역량을 고려한 적응, 재교육, 경력 경로 재설정의 필요성에 대한 논의를 촉진할 것입니다.
5년 전, 한 연구[BM17]에서는 입력과 출력이 잘 정의된 작업, 입력-출력 쌍이 있는 작업에 대한 데이터 세트 생성의 가용성 또는 용이성 등의 기준을 포함하여 당시의 선도적인 (지도 머신) 학습 기술로 자동화할 수 있는 작업을 식별하기 위한 루브릭을 제안했습니다. 이 연구는 미국 내 약 1,000개에 달하는 명명된 직업을 2,000개 이상의 작업에서 추출한 작업 집합에 매핑하고 루브릭에 따라 각 작업에 '머신러닝 적합성'을 부여했습니다. 그런 다음 저자들은 기계 학습에 적합한 작업의 비율이 다른 직업의 분포를 파악했습니다. GPT-4와 그 후속 버전이 등장하면서 루브릭의 몇 가지 주요 속성이 더 이상 적용되지 않아 머신러닝을 통한 자동화에 적합한 작업의 분포가 크게 달라질 수 있습니다. 일부 역할은 AI의 막강한 힘에 밀려 가치가 떨어지거나 쓸모없게 될 위험에 직면할 수 있습니다.
업무 자동화와 다양한 차원의 인간 지능과 수완을 기계가 수행할 수 있는 잠재력에 초점을 맞추는 것을 넘어, 새로운 종류의 인간-AI 상호 작용과 협업을 통해 인간의 지능과 능력을 확장할 수 있는 유망한 가능성을 보고 있습니다[oM22]. AI 기술을 창의적으로 활용하여 인간의 주체성과 창의성을 지원하고 인간의 능력을 향상 및 확장함으로써 직업을 혁신하고 변화시킬 수 있는 풍부한 기회가 있을 것으로 기대합니다. AI의 발전은 인간의 노력과 기여에 있어 새로운 수준의 기술이나 효율성을 달성하기 위해 무수히 많은 방식으로 활용될 수 있습니다.
또한 이러한 발전은 직업을 재정의하고 업무와 관련된 일상 업무와 활동을 재정의하는 데에도 상당한 긍정적인 영향을 미칠 수 있습니다. 인간의 문제 해결과 의사 결정을 지원하고 확장하기 위한 작업, 방법, 기계에 대한 투자는 기계로 자동화할 수 있는 일련의 작업을 식별하는 것보다 덜 분명하고 더 어려울 수 있습니다. 그러나 인간의 능력을 확장하기 위해 인간과 기계의 상호보완성을 풍부하게 활용할 수 있는 방법을 모색하는 데에는 큰 장점이 있습니다. 인간과 AI 협업의 원칙과 응용에 대한 연구 노력은 곧 다가올 가능성을 보여줍니다. 지금까지의 연구와 결과에는 인간과 기계의 상호보완성에 대한 실시간 추론을 통해 기계와 인간의 지성의 결합을 안내하는 핵심 원칙[Hor99, HP07, KHH12, RKN+19], 인간과 기계의 역량을 고려하여 기계 학습 절차를 최대 가치로 형성하는 것[WHK20, BNK+21], 의사 결정자가 대량의 정보를 탐색할 수 있도록 AI 방법을 활용하고[HB95], AI 시스템이 개선되어 시간이 지남에 따라 행동이 변화할 수 있는 경우 인간의 정신 모델을 고려하며[BNK+19], 인간-AI 상호 작용을 지원하는 시스템을 설계합니다[AWV+19].
언어 모델이 보여주는 힘은 이상적인 인간 팀을 구성하는 방법에 대한 지침을 제공하여 인간과 인간의 협업을 향상시키고[Hor07], 인간과 기계로 구성된 팀 간의 팀워크를 촉진하며[SHKK15], 여러 기계 및 인적 자원을 결합하여 까다로운 다차원 문제를 해결하는 새로운 접근법을 개발하는 등[SH10] 인간과 AI 협업의 새로운 차원을 열어줄 수 있습니다. 환각을 일으키고 편향되고 조작적이며 독성이 있는 결과물을 생성할 수 있는 LLM의 잠재력으로 인해 제기되는 특별한 과제는 사람들이 AI 시스템과 협력하여 감독과 지침을 제공할 수 있는 도구를 개발하는 것의 가치를 강조합니다. 사람들이 머신러닝의 사각지대를 인식하고 이를 해결할 수 있도록 돕는 특수 기계와 도구를 개발할 수 있는 기회가 있다는 사실이 여러 연구를 통해 입증되었습니다[LKCH17].
10. 방향 및 결론
우리는 광범위한 작업과 영역에 걸쳐 GPT-4에 대한 초기 탐색의 결과를 발표했으며, 여러 작업에서 GPT-4의 능력이 인간 수준과 비슷하다는 주장을 뒷받침하는 증거를 제시했습니다. 이 결론은 [Ope23]에서 제시된 OpenAI의 연구 결과와 일치합니다. 저희 실험의 주요 목표는 GPT-4의 지능에 대한 예비 평가를 제공하는 것인데, 이는 특히 인공 시스템에 대한 공식적인 개념 정의가 부족하기 때문에 쉽지 않은 작업입니다.
이번 실험이 GPT-4의 놀라운 능력과 과제를 이해하는 데 유용하고 필요한 첫걸음이 되기를 바라며, 이러한 광범위한 지능을 갖춘 미래 AI 시스템을 테스트하고 분석하는 보다 공식적이고 포괄적인 방법을 개발할 수 있는 새로운 기회가 열리기를 바랍니다. 위에서 입증된 이 모델의 능력은 깊이와 일반성 측면에서 머신러닝 커뮤니티가 구조화된 데이터 세트와 작업을 통해 고전적인 벤치마킹을 넘어설 필요가 있음을 시사하며, 이러한 새로운 모델의 능력과 인지 능력을 평가하는 것이 본질적으로 좁은 의미의 AI 모델이 아닌 인간의 능력을 평가하는 작업에 훨씬 더 가까워졌다는 것을 의미합니다. 이번 연구가 새로운 응용 분야와 영역을 탐색하고 지능의 근간이 되는 메커니즘과 원리를 이해하는 측면에서 GPT-4 및 유사한 시스템에 대한 추가 연구를 촉진하기를 바랍니다.
이번 연구의 핵심 주장은 GPT-4가 일반 지능의 한 형태에 도달했으며, 실제로 인공일반지능의 불꽃을 보여준다는 것입니다. 이는 추론, 창의성, 연역(deductioin)과 같은 핵심 정신 능력, 문학, 의학, 코딩과 같은 전문 지식을 습득한 다양한 주제, 그리고 게임, 도구 사용, 자기 설명 등 다양한 작업을 수행할 수 있는 능력으로 입증됩니다. 완전한 AGI로 인정받을 수 있는 시스템을 만들기 위해서는 아직 해야 할 일이 많이 남아 있습니다. 이 백서에서는 AGI 자체를 정의하고, AGI를 위한 LLM에서 누락된 일부 구성 요소를 구축하며, 최근 LLM이 보여주는 지능의 기원에 대해 더 잘 이해하는 것과 관련하여 몇 가지 즉각적인 다음 단계에 대해 논의하는 것으로 이 백서를 마무리합니다.
10.1. 지능, AI, AGI의 정의
이 백서에서는 1994년 심리학자 그룹[Got97]이 정의한 지능에 대한 정의를 GPT-4의 인공 지능을 탐구하기 위한 기본 프레임워크로 사용했습니다. 이 정의는 추론, 문제 해결, 추상화 등 지능의 몇 가지 중요한 측면을 담고 있지만 모호하고 불완전하기도 합니다. 이러한 능력을 측정하거나 비교하는 방법은 명시되어 있지 않습니다. 또한 자연 시스템과는 다른 목표와 제약을 가질 수 있는 인공 시스템의 구체적인 도전과 기회를 반영하지 못할 수도 있습니다. 따라서 우리는 이 정의가 지능에 대한 최종적인 정의가 아니라 조사를 위한 유용한 출발점이라는 점을 인정하고자 합니다. 지능, 인공 지능, 인공 일반 지능에 대한 보다 공식적이고 포괄적인 정의를 제안하려는 풍부하고 지속적인 문헌이 있지만[Goe14, Cho19], 그 중 어느 것도 문제나 논란이 없는 것은 아닙니다. 예를 들어, 레그와 후터[Leg08]는 인공일반지능에 대한 목표 지향적 정의를 제안합니다: 지능은 다양한 환경에서 목표를 달성하는 에이전트의 능력을 측정한다는 것이죠. 그러나 이 정의는 내재적 동기나 목표 없이 복잡한 작업을 수행하거나 질문에 답할 수 있는 수동적 또는 반응적 시스템을 제외하기 때문에 지능의 전체적인 스펙트럼을 반드시 포괄하는 것은 아닙니다. 예를 들어, 기관이나 선호도가 없지만 모든 주제나 도메인에 대해 정확하고 유용한 정보를 제공할 수 있는 뛰어난 오라클과 같은 인공일반지능을 상상할 수 있습니다. 또한 다양한 환경에서 목표를 달성한다는 정의는 어느 정도의 보편성이나 최적성을 의미하기도 하는데, 이는 현실적이지 않을 수 있습니다(물론 인간의 지능은 결코 보편적이거나 최적이 아닙니다). 보편성과는 반대로 선험성의 중요성을 인식할 필요성은 Chollet이 [Cho19]에서 제시한 정의에서 강조되었는데, 이는 지능을 기술 습득 효율성에 초점을 맞춘 것으로, 다시 말해 1994년 정의의 한 가지 구성 요소인 경험을 통한 학습(LLM의 주요 약점 중 하나이기도 함)에 중점을 둔 것입니다.
레그와 후터[LH07]의 인공 일반 지능에 대한 또 다른 후보 정의는 '인간이 할 수 있는 모든 것을 할 수 있는 시스템'입니다. 그러나 이 정의 역시 인간의 지능이나 능력에 대한 단일 기준이나 척도가 있다고 가정하기 때문에 문제가 있습니다. 인간은 각기 다른 기술, 재능, 선호도, 한계를 가지고 있으며, 다른 인간이 할 수 있는 모든 것을 할 수 있는 인간은 존재하지 않습니다. 또한, 이 정의에는 인공 시스템에는 적절하지 않거나 적절하지 않을 수 있는 특정 인간 중심적 편견이 내포되어 있습니다. 이 논문에서 이러한 정의를 채택하지는 않았지만, 이러한 정의가 지능에 대한 중요한 관점을 제공한다는 것을 알고 있습니다. 예를 들어, 지능이 어떤 기관이나 내재적 동기 없이도 달성될 수 있는지 여부는 중요한 철학적 질문입니다. 학습자에게 주체성과 내재적 동기를 부여하는 것은 향후 연구에 있어 매우 흥미롭고 중요한 방향입니다. 이러한 작업 방향에서는 시스템이 세상에서 자율적인 행동을 취하고 학습 주기를 통해 자율적인 자기 개선을 수행할 수 있는 능력에 따라 정렬과 안전에 세심한 주의를 기울여야 합니다. 다음장에서는 LLM에서 누락된 몇 가지 중요한 구성 요소에 대해 설명합니다.
10.2. 보다 일반적인 인공지능으로 가는 길
보다 일반적인 지능을 달성하기 위해 GPT-4(및 더 일반적으로 LLM)가 개선되어야 하는 몇 가지 영역은 다음과 같습니다. (많은 부분이 서로 연결되어 있음에 유의하세요):
- 신뢰도 보정: 모델은 언제 확신을 가져야 하고 언제 추측에 불과한지를 구분하는 데 어려움을 겪습니다. 이 모델은 학습 데이터에 나타나지 않은 사실을 구성하기도 하고, 생성된 콘텐츠와 프롬프트 간에 불일치를 보이기도 하는데, 이를 그림 1.8에서 개방 도메인(open-domain) 및 폐쇄 도메인(closed-domain) 환각이라고 합니다. 이러한 환각은 자신감 있고 설득력 있는 방식으로 진술될 수 있어 감지하기 어려울 수 있습니다. 따라서 이러한 환각은 오류는 물론 혼란과 불신으로 이어질 수 있습니다. 환각은 창의적인 콘텐츠를 제작할 때 유용한 요소이지만, 환각이 있는 모델의 사실적 주장에 의존하는 것은 특히 의료와 같이 중요한 영역에서 사용될 경우 비용이 많이 들 수 있습니다. 환각을 해결하기 위한 몇 가지 보완적인 방법이 있습니다. 한 가지 방법은 모델의 보정을 개선하여(프롬프트 또는 미세조정을 통해) 정답이 아닐 가능성이 높은 경우 답변을 하지 않거나 다운스트림에서 사용할 수 있는 다른 신뢰도 지표를 제공하도록 하는 것입니다. 개방형 도메인 환각을 완화하는 데 적합한 또 다른 접근 방식은 5.1절에서와 같이 모델이 검색엔진과 같은 외부 정보 소스를 호출할 수 있도록 허용하는 등 모델에 부족한 정보를 프롬프트에 삽입하는 것입니다. 폐쇄 도메인 환각의 경우 사후 확인을 통해 추가 모델 계산을 사용하는 것도 유망합니다(그림 1.8의 예를 참조하세요). 마지막으로, 환각의 가능성을 염두에 두고 애플리케이션의 사용자 경험을 구축하는 것도 효과적인 완화 전략의 일부가 될 수 있습니다.
- 장기기억: 모델의 컨텍스트는 매우 제한적이며(현재 8000개 토큰이지만 계산 측면에서 확장 가능하지 않음), '상태 비저장'(stateless) 방식으로 작동하며 모델에 새로운 사실을 가르칠 수 있는 명확한 방법이 없습니다. 실제로 이 모델이 책을 읽는 동안 줄거리를 따라가며 이전 챕터에 대한 참조를 이해하는 작업과 같이 진화하는 기억과 맥락이 필요한 작업을 수행할 수 있는지 여부조차 불분명합니다.
- 지속적인 학습: 이 모델은 스스로 업데이트하거나 변화하는 환경에 적응할 수 있는 기능이 없습니다. 모델은 한 번 학습되면 고정되며, 사용자나 세상의 새로운 정보나 피드백을 통합할 수 있는 메커니즘이 없습니다. 새로운 데이터로 모델을 미세조정할 수는 있지만, 이로 인해 성능이 저하되거나 과적합이 발생할 수 있습니다. 학습 주기 사이에 잠재적인 지연이 발생할 수 있으므로, 시스템은 최신 학습 주기 이후에 발생한 이벤트, 정보 및 지식에 대해서는 종종 최신 정보가 아닌 최신 훈련 주기 이후에 발생한 이벤트, 정보 및 지식에 관해서는 시스템이 종종 구식이 됩니다.
- 개인화: 일부 애플리케이션은 특정 조직 또는 최종 사용자에 맞게 모델을 조정해야 합니다. 시스템은 조직의 업무나 개인의 선호도에 대한 지식을 습득해야 할 수 있습니다. 그리고 많은 경우, 시스템은 일정 기간에 걸쳐 특정 조직이나 개인에 맞게 일정 기간에 걸쳐 사람과 조직의 역학 관계와 관련된 특정 변화에 따라 개인화된 방식으로 적응해야 합니다. 예를 들어, 교육 환경에서는 시스템이 다음과 같은 기능을 수행해야 할 것으로 예상됩니다. 특정 학습 스타일을 이해하고 시간이 지남에 따라 이해력과 실력을 갖춘 학생의 진도에 적응할 수 있어야 합니다. 이 모델에는 이러한 개인화된 정보를 통합할 수 있는 방법이 없습니다. 메타 프롬프트를 사용하는 것 외에는 이러한 개인화된 정보를 응답에 통합할 방법이 없습니다.
- 계획 및 개념적 도약: 섹션 8의 예제에서 제시된 바와 같이 이 모델은 다음과 같은 문제점을 보여줍니다. 미리 계획을 세워야 하거나 "유레카 아이디어"를 구성하는 작업을 수행하는 데 어려움이 있습니다. 작업 완료를 향한 진행 과정에서 불연속적인 '개념적 도약'(conceptual leaps)이 발생합니다. 즉, 이 모델은 은 흔히 인간의 천재성을 상징하는 형태의 개념적 도약이 필요한 작업에서는 잘 작동하지 않습니다.
- 투명성, 해석 가능성 및 일관성: 모델이 환각을 일으키고, 사실을 지어내고, 일관성 없는 콘텐츠를 생성할 뿐만 아니라, 모델이 생성하는 콘텐츠가 학습 데이터와 일치하는지 또는 자체적으로 일관성이 있는지 확인할 방법이 없는 것 같습니다. 모델은 종종 결정에 대한 고품질의 사후 설명을 제공할 수 있지만(6.2절에서 설명한 것처럼), 특정 결정이나 결론에 도달한 과정을 검증하기 위해 설명을 사용하는 것은 해당 과정이 정확하게 모델링되고 충분히 강력한 설명 과정도 정확하게 모델링된 경우에만 작동합니다(6.2절). 이 두 가지 조건은 모두 검증하기 어려우며, 이 두 가지 조건이 충족되지 않을 경우 모델의 결정과 설명 사이에 불일치가 발생합니다. 모델에는 모델 자체의 한계에 대한 명확한 인식이 없기 때문에 사용자와의 신뢰 또는 협업을 구축하기 어렵습니다.
- 인지적 오류와 비합리성: 이 모델은 인지적 편향과 비합리성(예: 확증 편향, 고정 편향, 기준율 무시), 통계적 오류와 같은 인간의 지식과 추론의 한계를 일부 드러내는 것으로 보입니다. 모델은 훈련 데이터에 존재하는 일부 편견, 선입견 또는 오류를 상속할 수 있으며, 이는 인구의 하위 집합 또는 더 큰 공통의 견해 및 평가와 관련된 의견이나 관점의 분포를 반영할 수 있습니다.
- 입력에 대한 민감도 문제: 모델의 응답은 다음과 같은 세부 사항에 매우 민감할 수 있습니다. 프롬프트의 구성이나 문구, 세션에서의 순서 등에 매우 민감할 수 있습니다. 이러한 비강건성은 엔지니어링 프롬프트와 그 순서에 상당한 노력과 실험이 필요한 경우가 많으며 그리고 이러한 시간과 노력을 투자하지 않은 상태에서 사용하면 최적의 추론과 결과가 아닌 부적절한 추론과 결과를 초래할 수 있습니다.
이번 연구의 한계는 강화 학습 단계(RLHF)가 수행되는 방식에서 비롯된 단점과 더 큰 아키텍처 및 방법론에 근본적으로 내재된 단점을 명확하게 구분하지 못했다는 점입니다. 예를 들어, 환각 문제를 개선된 강화학습 단계를 통해 어느 정도까지 해결할 수 있는지 또는 시스템이 계산하고 고려할 수 있는 대체 추론의 진실 가능성에 대한 새로운 형태의 보정을 도입하려는 집중적인 노력을 통해 어느 정도까지 해결할 수 있는지는 명확하지 않습니다(이에 대한 자세한 논의는 [Ope23]을 참조하세요). 인간에 비유하자면, 인지적 편향과 비합리적 사고는 인지 능력의 한계뿐만 아니라 우리 문화의 유산에 기반할 수 있습니다. GPT-4에서 환각의 원인에 대한 더 나은 이해와 잠재적 해결책을 모색하려면 다음과 같은 여러 버전을 비교하는 연구를 통해 도움을 얻을 수 있을 것입니다.
확인된 한계에 대한 더 광범위한 질문은 다음 단어 예측의 범위 내에서 앞서 언급한 단점 중 어떤 것을 완화할 수 있는가 하는 것입니다. 단순히 더 큰 모델과 더 많은 데이터로 이러한 문제를 해결할 수 있을까요, 아니면 아키텍처를 수정, 확장 또는 재구성해야 할까요? 다음 단어 예측(next word prediction)의 잠재적 확장에는 아래 항목들이 포함됩니다:
- 5.1절에서 제안한 대로 계산기, 데이터베이스 검색 또는 코드 실행과 같은 구성 요소 및 도구에 대한 모델의 외부 호출.
- 다음 단어 예측의 '빠른 사고' 메커니즘을 감독하는 더 풍부하고 복잡한 '느린 사고'(slow-thinking) 심층 메커니즘. 이러한 접근 방식을 사용하면 모델이 장기적인 계획, 탐색 또는 검증을 수행하고 작업 기억 또는 행동 계획을 유지할 수 있습니다. 느린 사고 메커니즘은 다음 단어 예측 모델을 하위 루틴으로 사용하지만 외부 정보 소스나 피드백에 액세스할 수 있으며 빠른 사고 메커니즘의 출력을 보정(revise)하거나 수정할 수 있습니다.
- 모델의 입력과 출력에 텍스트를 나타내는 토큰 외에도 문맥을 나타내는 벡터가 포함된다는 점에서 장기 기억을 아키텍처의 고유한 부분으로 통합할 수 있습니다.
- 단일 단어 예측을 넘어서는 것: 토큰의 순서를 계층 구조로 대체하는 것으로, 문장, 단락 또는 아이디어와 같은 텍스트의 상위 부분이 임베딩에 표시되고 콘텐츠가 하향식(top-down)으로 생성되는 방식입니다. 이러한 상위 개념의 순서와 상호 의존성에 대한 더 풍부한 예측이 다음 단어 예측 패러다임에 중점을 둔 대규모 컴퓨팅과 데이터에서 나올 수 있을지는 불분명합니다.
10.3. 실제로 무슨 일이 일어나고 있나요?
GPT-4에 대한 우리의 연구는 전적으로 현상학적 연구(phenomenological)입니다. 우리는 GPT-4가 할 수 있는 놀라운 일들에 초점을 맞추었지만, 왜 그리고 어떻게 그런 놀라운 지능을 달성하는지에 대한 근본적인 질문은 다루지 않았습니다. 어떻게 추론하고, 계획하고, 창조할까요? 단순한 알고리즘 구성 요소인 경사하강(gradient descent)과 대량의 데이터를 가진 대규모 트랜스포머의 조합이 핵심인데 왜 이렇게 일반적이고 유연한 지능을 발휘하는 것일까요? 이러한 질문은 학습과 인지에 대한 우리의 이해에 도전하고 호기심을 불러일으키며 더 깊이 있는 연구에 동기를 부여하는 LLM의 신비함과 매력의 일부입니다.
주요 방향에는 LLM의 출현 현상에 대한 지속적인 연구가 포함됩니다(최근 설문조사는 [WTB+22] 참조). 그러나 LLM의 기능에 대한 질문에 대한 뜨거운 관심에도 불구하고, 지금까지의 진전은 일부 출현 현상이 증명된 장난감 모델(toy models)에 불과하여 매우 제한적이었습니다. [BEG+22, ABC+22, JSL22]. 한 가지 일반적인 가설[OCS+20]은 많은 양의 데이터, 특히 콘텐츠의 다양성은 신경망이 일반적이고 유용한 "신경 회로"를 학습하도록 강제합니다. [OEN+22, ZBB+22, LAG+22]에서 발견된 것들, 모델의 큰 크기는 신경 회로에 충분한 중복성을 제공하고 그리고 신경 회로가 특정 작업에 특화되고 미세조정될 수 있는 다양성을 제공합니다. 대규모 모델에 대한 이러한 가설을 증명하는 것은 여전히 어려운 과제이며, 더욱이 이러한 가설은 추측에 불과하다는 것이 정답의 일부일 뿐입니다.
다른 관점에서 보면, 모델의 크기가 크다는 것은 여러 가지 다른 이점을 가져올 수 있습니다. 다른 최소값을 연결하여 경사하강을 보다 효과적으로 만드는 것과 같은 이점 [VBB19] 또는 단순히 고차원 데이터의 원활한 피팅을 가능하게 합니다[ES16, BS21]. 전반적으로, GPT-4와 같은 AI 시스템의 본질과 메커니즘을 밝히는 것은 갑자기 중요하고 시급해진 엄청난 도전입니다.
감사의 말씀. 이 놀라운 도구를 만들고 미리 체험해볼 수 있게 해준 OpenAI에 감사드립니다. 또한 OpenAI의 마일스 브런디지(Miles Brundage)와 그리고 이 작업에 대해 사려 깊은 피드백을 제공해주신 Microsoft의 수많은 분들께도 감사드립니다.
