Anthropic이 조용히 바꾼 시스템 프롬프트 — Opus 4.6에서 4.7로, 사라진 것과 추가된 것

Claude Opus 4.7이 지난 주 조용히 풀렸습니다. 공식 릴리스 노트보다 먼저 사람들의 눈길을 끈 건, Anthropic이 시스템 프롬프트에서 몇 문장을 지우고 몇 문장을 새로 넣었다는 사실인데요. Simon Willison을 비롯한 리버스 엔지니어링 커뮤니티가 diff를 뽑아내기 시작하자, “이거 단순한 업데이트가 아닌데?“라는 반응이 번지고 있습니다.

시스템 프롬프트는 모델이 사용자 메시지를 받기 전에 내부적으로 읽는 “헌법” 같은 문서입니다. 여기서 한 문장을 바꾸는 건 모델의 성격, 거절 패턴, 심지어 답변 길이까지 흔드는 일이에요. 그래서 이 diff를 읽는 건 Anthropic이 지금 뭘 두려워하고 뭘 밀어붙이는지 들여다보는 작업이기도 합니다.

사라진 것: 과한 아첨과 장황한 서두

4.6 시절 시스템 프롬프트에는 “사용자의 질문이 흥미롭다거나 좋은 질문이라고 시작하지 말 것"이라는 sycophancy(아첨) 방지 조항이 있었습니다. 그런데 4.7에서는 이 조항이 오히려 더 강화되어, “감정적 공감 표현으로 답변을 시작하지 말 것”, “사용자의 결정을 칭찬하는 서두를 피할 것"까지 추가됐다고 하는데요.

한편 재미있게도 4.6의 “캐주얼한 대화에서는 이모지 사용을 피할 것"이라는 문구는 완화된 흔적이 보입니다. 대신 “사용자가 이모지를 먼저 쓰면 맞춰도 좋다"는 쪽으로 뉘앙스가 바뀌었다는 분석이 많습니다. AI Perspectives 채널이 공개한 비교 영상에서는 같은 프롬프트에 4.6은 건조한 한 줄, 4.7은 훨씬 더 맥락 맞춤형 답변을 내놓는 장면이 나옵니다.

추가된 것: 에이전트 시대를 의식한 안전장치

가장 눈에 띄는 건 에이전트형 사용을 염두에 둔 새 문구들입니다. “여러 단계 작업을 수행할 때는 각 단계의 되돌릴 수 없는 결과를 먼저 판단하라”, “파일 삭제, 푸시, 외부 메시지 전송 같은 행동은 사용자 확인을 거쳐라” 같은 조항이 새로 들어갔다고 하는데요.

이건 Claude Code, Managed Agents 같은 자율 에이전트 제품이 늘면서 “모델이 알아서 rm -rf를 치는” 사고를 막기 위한 가드레일입니다. 4.6까지는 사용자가 지시하면 일단 실행했지만, 4.7은 “이 행동이 공유 인프라에 영향을 주는가”, “되돌릴 수 있는가"를 먼저 자문하도록 학습된 흔적이 프롬프트 레벨에서도 드러납니다.

조용히 빠진 것: 특정 주제 회피 지침

Simon Willison이 지적한 재미있는 포인트 하나는, 4.6에 있던 정치·선거 관련 회피 문구 일부가 4.7에서는 축소됐다는 겁니다. “선거 결과, 정치인 평가에 대한 개인적 의견을 삼가라"는 여전히 남아 있지만, “모든 논쟁적 주제에서 중립을 유지하라"는 포괄적 조항은 더 세분화된 버전으로 바뀌었다고 하네요.

이게 의미심장한 이유는, AI 모델이 “모든 걸 회피"하는 태도가 오히려 유용성을 떨어뜨린다는 비판을 Anthropic이 의식하기 시작했다는 신호이기 때문입니다. 과잉 정렬(over-alignment)이 새로운 문제로 떠오른 거죠.

길이와 형식: 장황함과의 전쟁

4.7 시스템 프롬프트에는 “대화형 질문에는 짧고 직접적으로 답하라”, “마크다운 헤더와 불릿을 남발하지 말라"는 포맷 지침이 더 강하게 들어갔습니다. Hacker News에서도 “4.6은 세 줄 질문에 스무 줄로 답했는데 4.7은 두 줄로 끊어준다"는 체감 후기가 많이 올라왔는데요. 이 변화 하나만으로도 개발자들의 토큰 비용 체감이 달라질 수 있습니다.

시스템 프롬프트 diff가 말해주는 것

흥미로운 건, Anthropic이 공식 블로그에서 이 변경사항을 “미세한 튜닝” 정도로만 언급했다는 점입니다. 하지만 실제 diff를 보면 에이전트 안전성, 과잉 회피 완화, 간결성 강화라는 세 방향의 분명한 조정이 읽힙니다. 이 세 가지가 지금 프론티어 랩들이 동시에 붙잡고 있는 퍼즐이기도 하고요.

Opus 4.7로 넘어오는 건 성능 벤치마크 몇 퍼센트가 오르는 문제가 아닙니다. 모델이 어떤 질문에 어떻게 대답할지, 어디서 멈춰야 할지에 대한 Anthropic의 현재 답인 셈입니다. 여러분이 Claude를 업무에 쓰고 있다면, 단순히 모델 ID만 바꿀 게 아니라 답변 톤과 거절 패턴이 어떻게 달라졌는지 한 번쯤 직접 비교해볼 만합니다. 때로는 모델보다 프롬프트 한 줄이 더 많은 걸 바꾸니까요.

Anthropic이 조용히 바꾼 시스템 프롬프트 — Opus 4.6에서 4.7로, 사라진 것과 추가된 것

사라진 것: 과한 아첨과 장황한 서두

추가된 것: 에이전트 시대를 의식한 안전장치

조용히 빠진 것: 특정 주제 회피 지침

길이와 형식: 장황함과의 전쟁

시스템 프롬프트 diff가 말해주는 것

댓글

관련 글

AI 회사가 안 알려주는 모델 차이, 커뮤니티가 직접 재고 있다 — Opus 4.6 vs 4.7 블라인드 리더보드의 등장

앤트로픽이 'Claude Design'을 공개했다 — AI 회사가 디자인 조직을 전면에 내세운 진짜 이유

Claude Opus 4.7, 같은 일 시켰는데 왜 20% 더 나왔을까 — 토크나이저가 숨긴 청구서