Anthropic 2분 소요

Anthropic이 Claude Code 품질 논란에 답했다 — 포스트모템이 드러낸 진짜 원인

지난 몇 주간 개발자 커뮤니티에서 가장 시끄러웠던 이야기를 꼽으라면, 단연 “Claude Code가 이상해졌다"는 불만이었습니다. Reddit, Hacker News, X 할 것 없이 “예전만 못하다”, “지시를 이상하게 해석한다”, “갑자기 멍청해졌다"는 글이 쏟아졌는데요. 결국 Anthropic이 공식 포스트모템을 내놓으며 입을 열었습니다.

흥미로운 건, 많은 사용자가 의심했던 “몰래 모델을 바꿨냐"는 가설이 완전히 틀렸다는 점입니다. 진짜 범인은 훨씬 더 복잡하고, 또 현대 LLM 인프라가 얼마나 취약한지를 보여주는 사례였습니다.

사용자들은 무엇을 겪었나

8월 초부터 4월 초까지, Claude Code 사용자들이 공통적으로 호소한 증상은 대략 이런 것들이었습니다. 같은 프롬프트인데 답변 품질이 들쭉날쭉하다, 긴 컨텍스트에서 앞부분을 잊어버린다, 코드 수정 지시를 과도하게 해석해서 엉뚱한 파일까지 건드린다.

커뮤니티에서는 “양자화를 몰래 적용했다”, “비용 절감용으로 하위 모델로 라우팅한다”는 음모론까지 돌았습니다. Anthropic은 그동안 “모델 가중치는 그대로"라고 해명했지만, 체감 품질이 분명히 떨어진다는 증언이 너무 많아 해명이 먹히지 않았습니다.

포스트모템이 밝힌 세 가지 버그

Anthropic이 공개한 조사 결과는 충격적이었습니다. 문제는 세 개의 서로 다른 독립적인 버그가 겹쳐서 발생했다는 겁니다. 각각 다른 시점에 배포됐고, 다른 하드웨어 환경에서만 재현됐습니다.

첫 번째는 컨텍스트 윈도우 라우팅 버그였습니다. 요청이 잘못된 서버 풀로 흘러가면서 일부 사용자의 쿼리가 짧은 컨텍스트 전용 서버에서 처리됐습니다. 당연히 긴 코드베이스를 다룰 때 “앞부분을 기억 못한다"는 증상이 나왔습니다.

두 번째는 TPU/GPU 간 수치 차이입니다. Anthropic은 여러 하드웨어 플랫폼에서 추론을 돌리는데, 특정 연산에서 부동소수점 처리 방식이 달라 같은 가중치라도 결과가 미묘하게 어긋났습니다. 사람 눈에는 “말투가 달라진” 것처럼 보였습니다.

세 번째는 토크나이저 처리 오류로, 특정 유니코드 문자열을 처리할 때 이상한 토큰 분할이 발생했습니다. 이모지나 특수문자가 섞인 코드에서 유독 이상한 동작이 나온 이유가 여기 있었습니다.

왜 탐지가 늦었나

더 뼈아픈 대목은 평가 체계가 이 문제를 못 잡았다는 자백입니다. Anthropic의 내부 벤치마크는 대부분 표준 컨텍스트 길이와 단일 하드웨어 풀에서 돌아갔는데요. 실제 사용자들은 훨씬 다양한 조건에서 Claude Code를 쓰고 있었습니다.

쉽게 말해, “평균 점수"는 떨어지지 않았지만, 특정 사용자 그룹에게만 품질이 급락하는 상황이었습니다. 개발자들이 “내 워크플로우에서는 확실히 이상해졌다"고 외쳐도, Anthropic의 대시보드에는 이상이 잡히지 않은 이유입니다.

이 사건이 남긴 교훈

이번 포스트모템이 업계에 주는 시사점은 꽤 묵직합니다. LLM 서비스 품질이란 건 모델 가중치만의 문제가 아니라 인프라 전체의 일관성 문제라는 사실이 드러났습니다. 라우팅, 하드웨어, 토크나이저 어느 하나만 삐끗해도 체감 품질이 무너집니다.

그리고 사용자의 집단적 직관이 벤치마크보다 빨랐다는 점도 의미심장합니다. 공식 평가는 문제를 감지하지 못했지만, 커뮤니티의 “뭔가 이상하다"는 집단 감각은 정확했습니다. 앞으로 LLM 벤더들이 사용자 피드백 신호를 얼마나 진지하게 다룰지가 관전 포인트입니다.

여러분은 최근 몇 주간 Claude나 다른 코딩 AI에서 “이상한 순간"을 겪으신 적 있으신가요? 그게 단순한 착각이 아니라 실제로 백엔드 어딘가에서 벌어지는 일의 징후일 수도 있다는 게, 이번 포스트모템이 주는 가장 큰 교훈 아닐까 싶습니다.

Anthropic Claude Code AI 포스트모템 엔지니어링

댓글

    댓글을 불러오는 중...