필즈상 수학자가 직접 써본 GPT-5.5 Pro, AI는 정말 수학을 하기 시작했을까
“AI가 수학 올림피아드 금메달을 땄다"는 뉴스가 한두 번이 아닙니다. 그런데 정작 진짜 수학자들은 시큰둥했죠. 벤치마크 점수와 실제 연구 수학은 완전히 다른 차원의 이야기였으니까요. 그런 와중에 필즈상 수상자 티모시 가워스(Timothy Gowers)가 GPT-5.5 Pro를 직접 써보고 남긴 평가가 학계에 작은 파문을 일으키고 있습니다.
왜 가워스의 평가가 중요한가
가워스가 누구인지부터 짚고 갈게요. 1998년 필즈상을 받은 영국 수학자로, 함수해석학과 조합론 분야의 거장입니다. 더 중요한 건 그가 수학과 AI의 접점에 오랫동안 관심을 가져온 인물이라는 점인데요. 자신의 블로그에서 수년 동안 AI 수학 모델들을 까칠하게 평가해 왔습니다.
그는 그동안 회의론자에 가까웠습니다. “벤치마크 잘 푼다고 수학을 한다는 게 아니다”, “진짜 연구는 새로운 개념을 만드는 일인데 LLM은 그걸 못한다"는 입장을 고수해왔죠. 그런 사람이 GPT-5.5 Pro를 두고 “처음으로 진지한 대화 상대가 됐다"고 말한 겁니다.
가워스가 던진 문제들
가워스는 단순한 계산 문제가 아니라, 자신이 평소 학생들과 토론하는 수준의 비표준 문제를 던졌다고 합니다. 교과서에 답이 없는 종류의 질문들이죠.
그중 인상적인 사례 하나는, 어떤 함수해석학적 보조정리(lemma)의 새로운 증명을 시도하는 과정이었습니다. 기존 증명은 알려져 있지만, 다른 경로로 가는 길이 있는지 묻는 일종의 탐색적 질문이었는데요. GPT-5.5 Pro는 첫 시도에서 틀렸지만, 가워스가 반례를 지적하자 자신의 논리를 수정하고 새로운 접근을 제안했다고 합니다. 단순한 사과나 다시 시도가 아니라, 이전 실수의 구조적 원인을 짚어내는 대화였다고 평가했죠.
“처음으로 동료처럼 느껴졌다”
가워스가 가장 놀랐던 부분은 대화의 결이었습니다. 이전 모델들은 틀린 답을 자신 있게 내놓거나, 지적받으면 무조건 굽히는 두 극단 사이를 오갔는데요. GPT-5.5 Pro는 자신의 추론에 근거가 있을 때는 밀고 들어오고, 진짜 틀렸을 때는 인정하는 패턴을 보였다고 합니다.
물론 한계도 명확했습니다. 가워스는 모델이 여전히 완전히 새로운 개념을 만들어내지는 못한다고 지적했습니다. 즉, 기존 수학 문헌에 흩어져 있는 도구들을 영리하게 조합하는 데는 능하지만, 정말로 새로운 정의나 관점을 제안하는 단계에는 도달하지 못했다는 거죠. 박사과정 중반의 똑똑한 학생 정도, 가워스의 표현으론 그렇게 묘사됐습니다.
학계 반응과 남는 질문
다른 수학자들의 반응은 여전히 갈립니다. 일부는 “박사과정 학생 수준이면 이미 엄청난 거다"라며 흥분하고, 다른 쪽은 “한 명의 일화일 뿐"이라며 신중합니다. 특히 재현성 문제가 자주 거론됩니다. 같은 모델, 같은 질문을 던져도 결과가 들쭉날쭉하다는 거죠.
또 하나 주목할 점은, 가워스조차 이 평가가 벤치마크가 아니라 자신의 주관적 인상임을 강조했다는 사실입니다. 진짜 검증은 AI가 수학 논문의 공동저자로 이름을 올리거나, 미해결 난제에 의미 있는 진전을 가져왔을 때 가능할 텐데요. 그 시점은 아직 오지 않았습니다.
마무리
수학자 한 명의 후기지만, 그 한 명이 가워스라는 점에서 무게가 다릅니다. AI가 단순한 답변 기계에서 수학적 대화 상대로 전환되는 어떤 임계점이 보이기 시작했다는 신호일지도 모르겠습니다. 그런데 여기서 한 가지 묻고 싶은데요. AI가 박사과정 학생 수준의 수학 파트너가 됐다면, 다음 세대의 수학 교육과 연구는 어떻게 바뀌어야 할까요. 단순히 “AI를 활용하라"는 말로는 부족한, 더 근본적인 질문이 시작된 것 같습니다.
댓글
댓글을 불러오는 중...