디지털 치매와 암기: 시험은 인간을 위한 것이 아니다

2025년 한국 정부는 초중고 영어, 수학 그리고 정보 과목에 인공지능 교과서(?)를 도입하기로 결정했습니다. 그 교과서가 어떤 내용으로 구성될지, 이 때 학생 수행 평가의 기준과 방식은 어떻게 될지 등에 대해서는 아직 정해진바 없습니다. 쉽게 이야기해서 영어, 수학 그리고 정보 과목 시험에서 챗GPT의 도움을 어느 정도 받을 수 있을지 결정되지 않았습니다. 이 글은 전통적인 시험이 AI 시대에 어떤 유의미성을 가지고 있는지 따져보려 합니다.

존재하는 모든 (전통) 시험을 챗GPT가  통과하는 일이 벌어진다해도 놀라운 일이 아닙니다. 대표적으로 GPT-4는 다양한 시험에서 좋은 성적을 거두고 있습니다. 미국 변호사 시험에서는 GPT-4의 점수가 상위 10%안에 들었습니다. 악명 높은 미국 대학 입학 시험(College Admissions Tests)에서도 결과는 비슷했습니다. 인공지능에게 이들 시험은 장난에 불과합니다.

물론 이 시험 실험의 진행 조건이 실험실이 아닌 다른 조건과 같은지 여부 또는 실험실이 아닌 조건에서도 GPT-4가 우수한 성적으로 각종 시험을 통과할 수 있을지 여부에는 의문의 여지가 남아있습니다. 그러나 이러한 조건을  논하는 것은 20미터 높이의 장애물을 뛰어넘은 슈퍼 로봇에게 출발선을 조금 넘어서 뛰어넘기 시작했다고 나무라는 것과 같습니다.

교육기관이 (초중고등) 학생의 능력과 지능을 평가하는데 이용되는 과제 또는 문제에 있어 인공지능은 매우 능숙하다는 점은 부정할 수 없는 사실입니다. 그리고 인공지능의 능력은 매우 빠른 속도로 진화하고 있습니다. 비영어권 시험에서는 인공지능의 정확도가 떨어진다는 문제가 여전히 남아있지만 이 또한 곧 해결될 것입니다.

A student stands in the midst of a tall pile of books and notes that need to be memorized, feeling down as the rain falls heavily outside, superrealistic, 4k, credit: 강정수 by Midjourney

시험이란 무엇인가?

인공지능이 가장 잘 수행하는 시험은 매우 간단한 패턴을 따르고 있습니다.

  1. 사실(facts)
  2. 질문
  3. 선택(choices)

아래는 GPT-4가 좋은 성적을 거둔 미국 변호사 시험(Bar Exam) 문제 중 하나입니다.

한 발명가는 가솔린 엔진의 연비를 높이는 장치에 대한 특허를 보유하고 있습니다. 한 기회주의자가 발명가의 장치에 대해 알게 되었고 동일한 장치를 제조 및 판매하기 시작하여 이를 기회주의자의 발명품으로 마케팅합니다. 발명가는 기회주의자를 특허 침해 혐의로 연방법원에 고소합니다. 기회주의자는 적시에 답변서를 제출합니다. 답변서를 제출한 지 14일 후, 기회주의자는 답변서를 수정합니다.
이 기회주의자의 답변서 수정은 적할한가요?
(a) 아니요, 법원의 허가없이는 답변서를 수정할 수 없기 때문입니다.
(b) 아니요, 기회주의자가 최초 답변서를 송달한 후 10일이 지난 후에 답변서를 수정했기 때문입니다.
(c) 예, 기회주의자가 최초 답변서를 송달한 후 21일 이내에 답변서를 수정했기 때문입니다.

An inventor holds a patent for a device that increases fuel economy in gasoline-fueled combustion engines. An opportunist learns of the inventor's device and begins manufacturing and selling an identical device, marketing it as the opportunist's own invention. The inventor sues the opportunist in federal court on a claim of patent infringement. The opportunist serves a timely answer. Fourteen days after serving the answer, the opportunist amends the answer.
Is the opportunist's amendment of the answer proper?
(a) No, because an answer may not be amended without leave of court.
(b) No, because the opportunist amended the answer more than 10 days after serving the initial answer.
(c) Yes, because the opportunist amended the answer within 21 days after serving the initial answer.

이 질문은 시험 응시자가 시험 전에 최소한의 준비를 했다면 답할 수 있습니다. 다시 말해 복잡한 법률 규칙을 학습하고 암기했다면 말입니다. 다르게 표현하면 벼락치기를 했으면 답할 수 있습니다.

바로 이 지점에서 GPT-4와 같은 거대언어모델(LLM)은 큰 장점을 가지고 있습니다. GPT-4는 스스로 벼락치기를 할 필요가 없습니다. 상상을 초월하는 양의 벼락치기를 이미 당했기 때문입니다. 거대언어모델은 거대한 양의 텍스트로 학습을 했고 학습 이후에는 이 텍스트를 새로운 문맥에서 재조합할 수 있습니다. 참고로 위 문제의 정답은 (b)입니다.

인공지능이 변호사 시험에 합격했다는 것은 무엇보다 인공지능이 아주 많은 양을 암기하는데 뛰어나다는 점을 의미합니다.

(인공지능 시대에) 암기에 뛰어나다는 것은 교육에 어떤 의미를 가지고 있을까요?

디지털 치매(digital dementia)

암기와 관련된 가장 최근 논쟁은 2012년 뇌신경과학자 맨프레드 스피처(Manfred Spitzer)의 저서 "디지털 치매"가 유행했을 때였습니다. 그에 테제(These)에 따르면 스마트폰, 인터넷 그리고 컴퓨터가 어린이와 청소년에게 막대한 피해를 주고 있습니다. (스피처의 정의에 따르면 저도 디지털 치매를 앓고 있습니다 ㅠ)

젊은이들은 점점 더 외롭고, 우울하며 고립되어 있습니다. 아래 글처럼 소셜 미디어가 적어도 부분적으로는 10대의 우울증에 기여하고 있다는 (학술) 증거는 늘어나고 있습니다.

Social Media is a Major Cause of the Mental Illness Epidemic in Teen Girls. Here’s The Evidence.
Journalists should stop saying that the evidence is just correlational

예를들면 현재 17세 (서구) 청소년의 삶 중 많은 부분은 소셜 미디어에서 일어나는 일을 중심으로 돌아갑니다. 소셜 미디어는 관심(attention)을 매개로 작동합니다. 이 관심 경제는 청소년을 물리 세계로부터 고립시키며 가장 크고 날카로운 생각을 청소년의 귀에 대고 외치고 있습니다. 또한 관심 경제는 이들 청소년을 친구나 낯선 사람의 좋아요와 댓글로 매일 평가 받도록 합니다.

맞습니다. 아이들은 괜찮지 않습니다. 그러나 맨프레드 스피처가 말한 디지털 치매는 다른 뜻을 가지고 있습니다. 그는 완전히 다른 걱정을 하고 있습니다. 스피처에 따르면 구글 등 검색서비스는 이용자가 검색하는데 필요한 모든 정보를 가지고 있다고 사람들을 믿게 만듭니다. 연구 결과에 따르면 구글에서 검색한 사람은 인터넷이 아닌 다른 방법으로 정보를 찾은 사람보다 이 정보를 뇌에 저장할 가능성이 낮다고 합니다. 스피처에 따르면 자동차 내비게이션 서비스를 즐겨 이용하다보면 스스로 길을 찾는 능력을 상실합니다. 생일, 전화 번호, 암산 또는 철자법도 마찬가지입니다. 스피처는 이 디지털 치매를 현대인의 심각한 병으로 묘사합니다.

스피처가 만약 "청소년은 점점 멍청해 지고 있다"라고 이야기한다면 이를 다르게 표현하면 "청소년은 점점 암기를 하지 않는다"입니다. 디지털 시대, 암기를 하지 않는 생활 습관이 정말 병일까요?

더 이상 벼락치기하지 말자

챗GPT는 스피처가 우려했던 진화의 고리를 끊어냈습니다. 10년 전에는 시험을 준비하며 기술의 도움을 받을 수 있었습니다. 하지만 지금은 기술이 직접 시험을 봅니다.
10년 전 스피처는 청소년을 위한 해결책을 제시했습니다. 이는 교실에서 기술(사용)을 금지하자는 것이었습니다. 스피처에 따르면 기술은 알코올과 유사하게 중독성을 가지고 있기에 알코올 교육처럼 미디어 교육을 통해 청소년의 기술 의존을 극복해야 합니다.

이는 완전히 잘못된 생각입니다.

인공지능이 인간보다 시험을 더 잘 볼 수 있다면 폐지해야 할 것은 인공지능이 아니라 시험입니다. (암기가 중심이 되는) 시험을 폐지해야 합니다.

역사 시험부터 사법고시까지 전통적인 시험은 암기력을 측정하는 것을 통해 인간 지능 또는 수행능력을 측정할 수 있다는 전제를 가지고 있습니다. GPT가 입증하든 이러한 시험은 인간의 능력을 테스트하는 것이 아니라 항상 인간이 아닌 것(=기계)의 능력을 테스트하는 것이었습니다. 시험은 학생을 초현실적인 평행세계 또는 평행우주로 강제 이동시킵니다. 이 평행세계에서 학생들은 무언가를 암기하고 있어야 합니다. 시험은 이 평행세계에서 학생들에게 일정 시간 내에 일정 수의 답을 선택하도록 강요합니다. 이 중 일부만이 정답입니다. 그러나 이렇게 인위적인 평행세계에서는 인간보다 기계가 훨씬 더 자신의 능력을 잘 표출할 수 있습니다.

조슈아 레비(Joshua Levy)는 트윗에서 이렇게 말하고 있습니다.

"인간을 대상으로 하는 시험은 대부분의 인간 또는 모든 인간이 가진 능력을 테스트하지 않습니다. 시험은 인간에게 어려운 능력을 테스트합니다."

거대언어모델 기반 인공지능은 앞으로 몇 년 안에 거의 모든 유형의 전통 시험을 인간보다 더 잘 치룰 것입니다. 그리고 그 때쯤 인간은 더 이상 인공지능의 시험 능력에 놀라지 않을 것입니다. 전자 계산기가 인간보다 연산을 더 잘한다는 사실에 놀라는 사람은 이제 없는 것과 같은 꼴입니다. 그러나 연산을 잘한다고 해서 훌륭한 수학자가 되는 것은 아닙니다. 전통 변호사 시험에 합격한 사람이 반드시 훌륭한 변호사가 되는 것도 아닙니다.

인공지능은 모든 것을 바꿀 기술 변화입니다. 유감스럽게도 우리 교육의 많은 부분은 실제 사용 가능한 능력보다 암기라는 그럴싸한 가짜 능력에 기반하고 있습니다.

앞으로의 교육은 변화하는 세계와 기술에 적응해야 합니다. 앞으로의 교육은 도구를 활용하고 자료를 해석하고 불확실한 환경을 탐색하는데 더 중점을 두어야 합니다. 벼락치기/암기의 비중은 크게 줄어야 합니다. 암기에서 우리 인간은 어차피 기계를 이길 수 없기 때문입니다.

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
작가와 대화를 시작하세요
1 이달에 읽은
무료 콘텐츠의 수

디지털 비즈니스의 핵심 인사이트만 전달하는 필수 구독

월 구독료 11,000원(부가세 포함)으로 모든 글을 빠짐없이 읽으실 수 있어요!

Powered by Bluedot, Partner of Mediasphere
닫기
Shop