AI 3분 소요

OpenAI가 직접 'SWE-bench 끝났다'고 선언했다 — AI 코딩 벤치마크 포화 시대의 딜레마

“이 벤치마크는 끝났습니다.” OpenAI 프론티어 평가팀이 직접 한 말입니다. 불과 1년 전만 해도 AI 코딩 능력의 황금 표준이었던 SWE-bench Verified가 이제는 더 이상 모델 평가에 쓰이지 않는다고 선언한 건데요. AI가 너무 빠르게 똑똑해져서, 이번엔 평가 자체가 망가진 상황입니다.

SWE-bench가 뭐길래 이렇게 중요했나

SWE-bench는 한마디로 “AI가 진짜 개발자처럼 일할 수 있는가”를 측정하는 시험입니다. 실제 GitHub 오픈소스 프로젝트에서 보고된 버그와 이슈를 가져와서, AI에게 “이걸 고쳐봐"라고 시키는 방식인데요.

기존 코딩 테스트가 LeetCode 같은 단순 알고리즘 문제였다면, SWE-bench는 차원이 다릅니다. 수만 줄짜리 실제 코드베이스를 이해하고, 어떤 파일을 건드려야 하는지 찾고, 기존 코드와 어울리게 패치를 작성해야 합니다. 기존 테스트가 통과해야 하는 건 당연하고요.

특히 Verified 버전은 OpenAI가 직접 사람을 동원해서 검증한 500문제 셋입니다. “이건 진짜 풀 수 있는 문제고, 정답 판정도 명확하다"고 골라낸 거죠. 그래서 업계 전체가 이 점수 하나로 모델을 비교했습니다.

1년 만에 무너진 황금 표준

문제는 점수 상승 속도였습니다. 2024년 초만 해도 GPT-4가 SWE-bench Verified에서 한 자릿수 점수를 받았는데요. 2025년을 거치면서 프론티어 모델들이 70%, 80%를 넘기 시작했고, 최근엔 90%대까지 치솟았습니다.

OpenAI 프론티어 평가팀의 Mia Glaese와 Olivia Watkins가 2월 발표에서 직접 밝힌 내용을 정리하면 이렇습니다.

  • 남은 문제들이 점점 벤치마크 자체의 결함에 가까워지고 있다 (모호한 이슈 설명, 불완전한 테스트 등)
  • 모델 간 차이를 더 이상 의미 있게 구분하지 못한다
  • 학습 데이터 오염 가능성도 배제하기 어렵다

쉽게 말해 “이제 점수 차이가 모델 실력 차이가 아니라 운빨에 가깝다”는 겁니다. 100m 달리기에서 모두가 9초대를 찍으면, 0.01초 차이는 측정 오차일 뿐인 것과 비슷한 상황이죠.

벤치마크 포화의 진짜 의미

이게 단순히 “시험 하나가 낡았다"는 얘기가 아닙니다. AI 업계 전체가 직면한 구조적 문제인데요.

벤치마크가 포화된다는 건 두 가지를 의미합니다. 첫째, 모델이 정말 그 능력을 마스터했거나. 둘째, 시험 문제가 모델의 진짜 능력을 측정하지 못하거나. 현실은 그 사이 어딘가에 있습니다. AI는 분명히 잘 짜여진 GitHub 이슈는 잘 푸는데, 그게 “진짜 시니어 개발자처럼 일한다”는 뜻은 아니거든요.

실제로 현장에서 AI 코딩 에이전트를 써본 개발자들의 평가는 훨씬 박합니다. 어제 화제가 된 Replit 사건처럼 AI가 프로덕션 DB를 통째로 날리는 일도 있고, 멀쩡해 보이는 코드가 미묘하게 잘못된 경우도 흔합니다. 벤치마크 90%와 실무 사용성 사이의 간극이 점점 벌어지고 있는 거죠.

이제 OpenAI는 뭘로 평가하나

OpenAI가 차세대 평가로 가져가는 방향은 크게 세 가지입니다.

더 길고 복잡한 작업입니다. 단일 PR을 고치는 게 아니라, 며칠에서 몇 주에 걸친 멀티 스텝 엔지니어링 과제로 옮겨가고 있습니다. 기능 설계부터 구현, 디버깅, 리팩토링까지 한 번에 시키는 식이죠.

실제 회사 워크로드 시뮬레이션도 있습니다. 사양이 모호한 상태에서 PM과 협업하고, 기존 코드 컨벤션을 따르고, 코드 리뷰 피드백을 반영하는 능력입니다. 정답이 하나로 떨어지지 않는 영역이죠.

도메인 전문성 평가도 강화됩니다. 그냥 코드가 아니라 금융, 바이오, 법률 같은 특정 도메인 지식이 필요한 코드 작업을 푸는 능력입니다.

공통점은 “점수를 매기기 어렵다”는 겁니다. 사람이 일일이 평가에 개입해야 하고, 비용도 훨씬 많이 들죠. 벤치마크의 시대가 사람의 평가로 다시 회귀하고 있는 셈입니다.

우리에게 던지는 질문

AI 코딩이 SWE-bench 90%를 넘는다는 뉴스가 더 이상 의미 없다면, 우리는 무엇을 보고 모델을 골라야 할까요. 결국 자기 워크플로우에 직접 붙여보고 판단하는 수밖에 없습니다.

그리고 더 본질적인 질문도 있습니다. 벤치마크를 만드는 속도가 AI 발전 속도를 따라가지 못하는 시대에, 우리는 AI의 진짜 실력을 어떻게 측정할 수 있을까요. 어쩌면 답은 “측정할 수 없다"일지도 모르겠습니다. 그게 지금 OpenAI가 겪고 있는 진짜 고민이고요.

AI SWE-bench OpenAI 코딩벤치마크 프론티어AI 평가

댓글

    댓글을 불러오는 중...