AI 에이전트 성적표, 믿어도 되는 걸까 — 버클리가 던진 불편한 질문

AI 모델이 새로 나올 때마다 우리는 숫자를 봅니다. “벤치마크 1위”, “인간 수준 돌파”, “이전 모델 대비 30% 향상.” 그런데 그 숫자가 실제 현실에서의 능력과 얼마나 같은 이야기를 하고 있을까요? 최근 UC 버클리 연구팀을 중심으로, AI 에이전트 벤치마크 자체의 신뢰성에 의문을 던지는 연구들이 쏟아지고 있습니다. 이 글은 그 불편한 질문을 정리해봅니다.

벤치마크는 어떻게 AI의 성적표가 되었나

AI 분야에서 벤치마크는 일종의 공인 시험입니다. MMLU, HumanEval, GSM8K 같은 테스트로 모델의 지식, 코딩 능력, 수학적 추론을 측정합니다. AI 에이전트 시대로 넘어오면서는 SWE-bench, WebArena, AgentBench 같은 에이전트 전용 벤치마크도 등장했습니다. 이 벤치마크에서 높은 점수를 받으면 투자가 몰리고, 뉴스에 나오고, 사용자가 늘어납니다.

문제는 이 시험이 실전과 다르다는 점입니다. 수능 만점자가 반드시 좋은 연구자가 되는 건 아닌 것처럼, 벤치마크 1위 모델이 실제 업무에서 가장 뛰어난 건 아닐 수 있습니다.

버클리가 찾아낸 균열들

UC 버클리 연구팀은 AI 에이전트 벤치마크의 구조적 문제를 여러 각도에서 파헤쳤습니다.

첫째, 데이터 오염 문제입니다. 벤치마크 문제가 학습 데이터에 이미 포함되어 있을 가능성이 높습니다. 시험 문제를 미리 본 학생이 높은 점수를 받는 것과 같은 상황입니다. 모델이 문제를 “풀어낸” 것인지, “기억해낸” 것인지 구분이 어렵습니다.

둘째, 평가 지표의 단순화입니다. 대부분의 에이전트 벤치마크는 “성공 또는 실패"라는 이분법적 기준을 사용합니다. 하지만 현실에서 AI 에이전트의 가치는 그 사이 어딘가에 있습니다. 80%까지 잘 진행하다가 마지막에 실패한 에이전트와 첫 단계부터 엉뚱한 방향으로 간 에이전트가 같은 0점을 받습니다.

셋째, 재현성의 부재입니다. 같은 벤치마크를 같은 모델로 돌려도 결과가 달라지는 경우가 빈번합니다. AI 에이전트는 외부 환경과 상호작용하기 때문에, 웹사이트의 UI가 바뀌거나 API 응답이 달라지면 점수가 흔들립니다.

“시험에 최적화된” AI의 함정

더 근본적인 문제는 벤치마크 중심 개발 문화 자체에 있습니다. 연구팀과 기업들이 벤치마크 점수를 올리는 데 집중하면서, 모델이 시험 잘 보는 기술을 학습하게 됩니다. 이를 학계에서는 “Goodhart의 법칙"이라 부릅니다. 측정 지표가 목표가 되는 순간, 그것은 좋은 측정 지표이기를 멈춥니다.

실제로 SWE-bench에서 높은 점수를 기록한 일부 에이전트 시스템이 벤치마크에 특화된 프롬프트 엔지니어링과 후처리 파이프라인을 사용한 것으로 알려지면서 논란이 된 적 있습니다. 벤치마크 점수는 올랐지만, 벤치마크 밖의 실제 소프트웨어 프로젝트에서는 성능이 크게 떨어졌습니다.

그렇다면 무엇을 믿어야 하나

버클리 연구팀이 제안하는 방향은 몇 가지로 요약됩니다.

동적 벤치마크가 필요합니다. 고정된 문제 세트가 아니라, 지속적으로 새로운 문제가 생성되는 평가 체계여야 오염을 방지할 수 있습니다. 일부 연구에서는 최신 GitHub 이슈를 실시간으로 가져와 테스트하는 “라이브 벤치마크” 개념을 실험하고 있습니다.

과정 평가가 결과 평가를 보완해야 합니다. 최종 정답 여부만이 아니라, 에이전트가 문제를 해결하는 과정에서 보인 추론의 질, 도구 사용의 적절성, 오류 복구 능력 등을 함께 측정해야 합니다.

실사용 환경 테스트가 병행되어야 합니다. 통제된 실험실 환경이 아니라 실제 사용자가 실제 업무에서 겪는 상황을 반영한 평가가 필요합니다. 이는 비용이 많이 들지만, 벤치마크와 현실 사이의 간극을 좁히는 유일한 방법입니다.

소비자로서 우리가 할 수 있는 것

AI 에이전트를 도입하려는 기업이나 개인에게 시사점은 명확합니다. 벤치마크 순위표만 보고 선택하지 마세요. 본인의 실제 업무와 유사한 작업을 직접 테스트해보는 것이 가장 정확한 평가입니다. 한 커뮤니티 사용자의 표현을 빌리자면, “리더보드는 참고용이지 구매 가이드가 아니다"라는 말이 딱 맞습니다.

AI 에이전트의 성적표가 무의미하다는 이야기가 아닙니다. 다만 그 성적표가 어떤 조건에서, 무엇을 측정한 것인지 꼼꼼히 따져봐야 한다는 뜻입니다. AI가 점점 더 중요한 결정을 내리는 시대, 그 AI를 평가하는 방법부터 제대로 되어 있는지 묻는 것. 어쩌면 이것이 지금 가장 시급한 질문일지도 모릅니다.