구글 딥마인드 AlphaEvolve, 코딩 에이전트가 수학 난제를 푸는 시대

요즘 AI 업계에서 “에이전트"라는 단어가 너무 흔해져서 식상할 정도인데요. 그런데 구글 딥마인드가 내놓은 AlphaEvolve는 좀 다릅니다. 단순히 코드를 자동으로 짜주는 도구가 아니라, 수십 년간 풀리지 않던 알고리즘 문제를 직접 해결해버렸거든요. 코딩 에이전트가 과학 연구의 보조 도구가 아니라, 동료 연구자로 자리 잡기 시작한 변화를 짚어봅니다.

AlphaEvolve가 도대체 뭔가요

AlphaEvolve는 구글 딥마인드가 공개한 진화형 코딩 에이전트입니다. Gemini 모델을 두뇌로 쓰되, 단순히 한 번 코드를 뱉고 끝나는 방식이 아닙니다. 후보 알고리즘을 수없이 생성하고, 평가하고, 변형하는 과정을 반복합니다.

말 그대로 “진화"입니다. 자연선택처럼 더 나은 해법만 살아남고, 거기서 다시 변형이 일어나는 거죠. 인간 연구자가 하루에 시도할 수 있는 가설은 수십 개지만, AlphaEvolve는 수만 개 후보를 병렬로 굴립니다. 속도와 규모의 차이가 결국 질의 차이로 이어진다는 게 핵심입니다.

기존 AlphaCode나 AlphaGo 시리즈와 결정적으로 다른 점이 있는데요. 이전 모델들은 정해진 게임이나 대회 문제를 풀었지만, AlphaEvolve는 실제 연구 문제와 인프라 최적화를 타깃으로 합니다.

56년 만에 깨진 행렬 곱셈 기록

가장 화제가 된 성과는 행렬 곱셈 알고리즘입니다. 4x4 복소수 행렬을 곱하는 데 필요한 곱셈 횟수를, 1969년 슈트라센이 세운 기록 이후 처음으로 줄여냈습니다. 49번에서 48번으로 단 한 번 줄였을 뿐인데, 이게 왜 큰 일이냐면요.

행렬 곱셈은 딥러닝의 가장 기본 연산입니다. 곱셈 한 번 줄이는 게 GPU 연산 수십억 번을 절약하는 효과로 이어집니다. 50년 넘게 수많은 수학자와 컴퓨터과학자가 도전했지만 깨지지 않던 벽을, AI가 무너뜨린 거죠.

수학 분야에서는 50개 이상의 미해결 문제에 도전해 그중 약 20%에서 기존 최고 기록을 갱신했다고 알려져 있습니다. 키싱 넘버 문제처럼 300년 가까이 다뤄진 고전 문제도 포함됐는데, 학계가 받은 충격이 적지 않습니다.

구글 데이터센터에서 이미 일하고 있다

연구실 안에서만 도는 데모가 아닙니다. AlphaEvolve는 이미 구글 내부 인프라에서 실전 투입돼 있는데요. 데이터센터 스케줄러를 최적화해 전체 컴퓨팅 자원의 0.7%를 회수했다고 합니다.

0.7%가 작아 보이지만, 구글 규모에서는 어마어마한 숫자입니다. 수십만 대 서버에서 항상 0.7%만큼의 여유가 새로 생긴다는 뜻이니까요. 게다가 Gemini 모델 학습에 쓰이는 커널 코드도 다시 짰는데, 학습 시간을 1% 단축시켰습니다. 모델 한 번 학습에 수백만 달러가 드는 시대에 1%는 결코 작지 않습니다.

TPU 회로 설계 일부에서도 AlphaEvolve가 제안한 최적화가 채택됐습니다. 칩 설계, 학습 코드, 데이터센터 운영까지 AI 인프라 스택의 거의 모든 층에 AI가 손을 대고 있는 셈입니다.

“AI가 새로운 지식을 만든다"는 말의 진짜 의미

여기서 흥미로운 철학적 질문이 따라옵니다. AlphaEvolve가 푼 답은 새로운 지식일까요, 아니면 기존 지식의 재배열일까요. 학계에서도 의견이 갈립니다.

회의론자들은 LLM이 결국 학습 데이터의 패턴을 재조합할 뿐이라고 봅니다. 반면 AlphaEvolve를 옹호하는 쪽은, 인간이 50년간 못 찾은 해법을 찾았다면 그 자체로 새로운 발견이라고 주장합니다. 검증 가능한 수학 증명이라는 점에서 헛소리(hallucination) 문제도 비교적 자유롭다는 점이 강점이고요.

저는 이 논쟁이 곧 의미가 없어질 거라고 봅니다. AlphaEvolve가 푼 문제를 인간이 검증하고 논문으로 쓰는 순간, 그건 그냥 인류의 지식이 됩니다. 누가 처음 제안했는지가 중요한 게 아니라, 그 답이 옳은지가 중요한 거죠.

코딩 에이전트의 다음 단계

AlphaEvolve가 시사하는 건 단순히 “AI가 똑똑해졌다"가 아닙니다. 코딩 에이전트의 무대가 웹 앱 만들기에서 과학 연구로 넘어가고 있다는 신호입니다.

지금까지 우리가 본 코딩 에이전트들, Cursor나 Devin 같은 도구는 주로 일상적 소프트웨어 개발을 자동화했습니다. 반면 AlphaEvolve는 답이 정해지지 않은 문제, 인간조차 어떻게 풀어야 할지 모르는 문제에 도전합니다. 이게 진짜 research agent의 첫 모습일지도 모릅니다.

물론 한계도 분명합니다. AlphaEvolve가 잘 푸는 문제는 평가 함수가 명확한 영역에 한정됩니다. 수학 증명, 알고리즘 효율, 회로 면적처럼 좋고 나쁨을 자동으로 판정할 수 있어야 합니다. 신약 후보를 찾거나 사회 정책을 설계하는 식의 모호한 문제는 아직 영역 밖입니다.

마치며

코딩 에이전트가 코드만 짜던 시대는 끝났습니다. AlphaEvolve는 수학자가 풀던 문제를, 칩 설계자가 다듬던 회로를, 운영팀이 튜닝하던 스케줄러를 동시에 건드리고 있습니다. 여러분의 분야에 명확한 평가 기준이 있는 문제가 있다면, 그건 곧 AI 에이전트가 도전할 다음 후보일 가능성이 큽니다. 지금 우리가 풀고 있는 문제 중 어떤 것이 가장 먼저 자동화될까요.

구글 딥마인드 AlphaEvolve, 코딩 에이전트가 수학 난제를 푸는 시대

AlphaEvolve가 도대체 뭔가요

56년 만에 깨진 행렬 곱셈 기록

구글 데이터센터에서 이미 일하고 있다

“AI가 새로운 지식을 만든다"는 말의 진짜 의미

코딩 에이전트의 다음 단계

마치며

댓글

관련 글

프롬프트 그만 늘리세요 — AI 에이전트는 제어 흐름이 답입니다

AI가 코드를 다 짜주는 시대, 진짜 병목은 따로 있었습니다

AI 에이전트가 직접 신용카드를 긁는다 — Cloudflare와 Stripe가 연 자율 결제 시대