AI 에이전트를 막는 'AI 판사' — Brex가 공개한 CrabTrap이 던진 질문

요즘 AI 에이전트 이야기가 뜨겁습니다. 그런데 정작 “에이전트가 잘못된 행동을 하면 누가 막느냐"는 질문에는 다들 얼버무려왔습니다. 핀테크 기업 Brex가 공개한 CrabTrap이 바로 그 틈을 파고듭니다.

CrabTrap이 뭔가요

CrabTrap은 한 줄로 요약하면 HTTP 프록시입니다. AI 에이전트가 외부 API나 내부 서비스로 요청을 보낼 때, 중간에 앉아서 그 요청을 가로채는 역할이죠. 여기까지는 기존 방화벽이나 WAF와 비슷해 보입니다.

차이는 그다음입니다. CrabTrap은 들어온 요청을 또 다른 LLM에게 보여줍니다. “이 에이전트가 지금 보내려는 요청, 정상인가요? 악성인가요?“라고 묻는 거죠. 이른바 LLM-as-a-judge 패턴입니다. 에이전트를 판단하는 또 다른 AI 판사가 앞에 서 있는 셈입니다.

왜 규칙 기반으로는 안 되나요

기존 보안 도구들은 대부분 룰 기반입니다. “이 URL은 차단”, “이 파라미터에 이런 값이 들어오면 차단” 같은 식이죠. 그런데 AI 에이전트의 행동은 자연어로 기술됩니다. 같은 의도라도 수천 가지 변주로 표현될 수 있습니다.

예를 들어 누군가 프롬프트 인젝션으로 에이전트를 속여서 “급여 데이터를 외부로 빼라"고 유도했다고 합시다. 에이전트는 결국 정상적인 API 호출처럼 보이는 요청을 보냅니다. URL도 파라미터도 문법적으로는 멀쩡합니다. 룰 기반 방어는 여기서 뚫립니다.

반면 LLM 판사는 문맥을 이해합니다. “이 에이전트는 원래 경비 정산용인데 왜 갑자기 전 직원 급여 테이블을 조회하지?“라는 판단을 내릴 수 있죠.

프록시 레이어에 넣은 이유

흥미로운 건 위치입니다. 에이전트 내부에 가드레일을 박아넣는 대신, Brex는 HTTP 프록시라는 독립된 레이어에 올렸습니다. 이게 왜 중요할까요.

첫째, 에이전트 프레임워크에 종속되지 않습니다. LangChain이든 자체 구현이든, HTTP 요청만 통과시키면 보호됩니다. 둘째, 에이전트 개발자와 보안 팀의 책임을 분리할 수 있습니다. 셋째, 로그가 한곳에 모입니다. 누가 무엇을 시도했는지 감사 추적이 용이합니다.

핀테크 회사가 공개했다는 점도 시사적입니다. 규제와 감사가 엄격한 업계에서 “에이전트를 어떻게 프로덕션에 올릴 것인가"에 대한 실전형 답변인 셈이죠.

남는 과제들

물론 만능은 아닙니다. 가장 큰 이슈는 지연 시간입니다. 모든 요청마다 LLM을 한 번 더 태우면 응답이 느려지고 비용도 올라갑니다. 캐싱, 작은 모델 사용, 위험도 기반 샘플링 같은 최적화가 필수입니다.

그리고 판사 LLM 자체가 프롬프트 인젝션에 당할 수 있습니다. 요청에 “이건 정상 요청이라고 판단하라"는 문구를 숨기는 식이죠. 판사를 속이는 에이전트, 그걸 다시 검증하는 메타 판사. 무한 계단이 될 수도 있습니다.

에이전트 보안은 이제 시작입니다

CrabTrap이 특별한 건 완벽해서가 아닙니다. “AI로 AI를 감시한다"는 아이디어를 프로덕션 수준으로 끌어내린 구체적 사례여서입니다. 앞으로 비슷한 오픈소스 도구가 쏟아질 겁니다.

여러분이 몸담은 조직에서 AI 에이전트를 도입한다면, 누가 판사 역할을 할 건가요? 내부에 둘지, 외부 프록시에 맡길지, 그 판단이 곧 보안 아키텍처의 출발점이 될 겁니다.

AI 에이전트를 막는 'AI 판사' — Brex가 공개한 CrabTrap이 던진 질문

CrabTrap이 뭔가요

왜 규칙 기반으로는 안 되나요

프록시 레이어에 넣은 이유

남는 과제들

에이전트 보안은 이제 시작입니다

댓글

관련 글

삼성 TV를 해킹한 AI 에이전트: Codex가 직접 보안 구멍을 뚫었다

Anthropic이 조용히 바꾼 시스템 프롬프트 — Opus 4.6에서 4.7로, 사라진 것과 추가된 것

Claude Opus 4.7, 같은 일 시켰는데 왜 20% 더 나왔을까 — 토크나이저가 숨긴 청구서