AI 에이전트는 grep보다 98% 적은 토큰을 쓴다 — Semble이 까발린 컨텍스트 비용의 진짜 병목

요즘 Cursor나 Claude Code 같은 AI 코딩 에이전트를 써본 분들이라면 한 번쯤 느꼈을 겁니다. “왜 이렇게 답이 늦지?” 그리고 청구서를 보면 또 한 번 놀라죠. 알고 보면 그 비용의 상당 부분이 코드를 찾는 데 쓰이고 있다는 사실이 최근 개발자 커뮤니티에서 화제입니다. Semble이라는 새로운 도구가 던진 “grep보다 98% 적은 토큰"이라는 주장을 따라가다 보면, AI 코딩의 진짜 병목이 어디에 있는지 보이기 시작합니다.

grep은 왜 AI 에이전트에게 비싼 도구가 되었나

grep은 우리가 30년 넘게 써온 텍스트 검색 도구입니다. 빠르고, 무료고, 안 망가지죠. 그런데 AI 에이전트가 grep을 호출하면 이야기가 달라집니다.

예를 들어 에이전트가 “authenticate라는 함수가 어디서 쓰이지?“를 알고 싶다고 가정해봅시다. grep으로 검색하면 매칭되는 모든 줄이 그대로 반환됩니다. 큰 코드베이스라면 수천 줄이 나올 수 있는데요. 이 결과가 전부 LLM의 컨텍스트 윈도우로 들어갑니다. 토큰으로 환산하면 수만, 수십만 토큰이 한 번의 검색으로 소모되는 거죠.

문제는 이게 끝이 아닙니다. 에이전트는 보통 한 작업에서 grep을 수십 번 호출합니다. 검색 결과 일부를 보고, 관련 파일을 또 열고, 또 검색하고. 결국 진짜 코드를 생성하는 시간보다 “맥락을 찾아 헤매는” 시간이 더 길어집니다.

Semble의 접근: 검색 결과를 LLM이 아니라 인덱스가 이해한다

Semble이 들고 나온 아이디어는 단순합니다. “왜 매번 raw text를 LLM에게 통째로 던지느냐"는 거죠.

Semble은 코드베이스를 미리 의미 단위로 인덱싱합니다. 함수, 클래스, 호출 관계, 타입 시그니처 같은 정보를 구조화된 형태로 저장해 두는 거죠. 에이전트가 검색을 요청하면, Semble은 raw 매칭 결과 대신 “이 함수는 여기서 정의됐고, 저기서 3번 호출됩니다” 같은 압축된 요약을 돌려줍니다.

결과는 인상적입니다. 같은 질문에 대해 grep이 50,000 토큰을 쓴다면, Semble은 1,000 토큰 안팎으로 같은 정보를 전달한다는 게 그들의 주장인데요. 단순 산술로 98% 절감입니다.

진짜 병목은 속도가 아니라 컨텍스트였다

여기서 흥미로운 관점 전환이 일어납니다. 그동안 우리는 AI 코딩 도구의 한계를 “모델 성능"이나 “응답 속도"의 문제로 봐왔습니다. 그런데 최근 1-2년간 드러난 진짜 병목은 다른 곳에 있습니다.

바로 컨텍스트 윈도우의 효율입니다. 모델은 똑똑해졌고 윈도우는 100만 토큰까지 커졌지만, 그 안에 무엇을 채워 넣느냐가 출력 품질을 결정합니다. 쓸데없는 grep 결과 1만 줄이 들어가면, 정작 중요한 코드 한 조각이 묻혀버리죠.

게다가 토큰은 곧 돈입니다. Claude나 GPT API의 청구서를 뜯어보면, 입력 토큰이 출력 토큰보다 훨씬 많이 쌓여 있는 걸 발견하게 됩니다. 에이전트가 길게 생각해서 비싼 게 아니라, 읽는 데만 너무 많이 쓰고 있는 겁니다.

“그냥 grep 쓰면 되지” 진영의 반론

물론 모두가 환영하는 건 아닙니다. 개발자 커뮤니티에는 늘 그렇듯 회의론이 있습니다.

첫 번째 반론은 인덱싱 비용입니다. Semble 같은 도구는 코드베이스를 미리 분석해서 인덱스를 만들어야 하는데, 코드가 자주 바뀌는 환경에서는 이 인덱스를 유지하는 비용이 만만치 않습니다. grep은 인덱스가 필요 없죠.

두 번째 반론은 정확도입니다. 압축된 요약은 편하지만, 가끔 에이전트가 정말 봐야 할 디테일을 놓치게 만들 수 있습니다. raw grep 결과는 못생겼어도 “있는 그대로"를 보여주니까요.

세 번째는 락인 우려입니다. 특정 검색 도구에 의존하기 시작하면, 그 도구가 사라지거나 비싸질 때 곤란해집니다. grep은 어디에나 있고 영원히 있을 거니까요.

진짜 변화는 “도구의 도구” 시장의 등장

한 발 떨어져서 보면, Semble은 개별 제품 이야기가 아닙니다. AI 에이전트를 위한 보조 도구 시장이 본격적으로 열리고 있다는 신호입니다.

지난 몇 년간 AI 코딩 도구의 경쟁은 “어떤 모델이 더 똑똑한가"에 집중됐습니다. 그런데 모델 성능이 어느 정도 평준화되자, 경쟁의 축이 옮겨가고 있습니다. 같은 모델에게 더 좋은 컨텍스트를 더 적은 비용으로 줄 수 있는 인프라를 누가 만드느냐가 새로운 전장이 되고 있는 거죠.

코드 검색뿐만이 아닙니다. 메모리 관리, 도구 호출 라우팅, 컨텍스트 압축 같은 분야에서 비슷한 류의 스타트업들이 쏟아져 나오고 있습니다. AI 에이전트가 “직접 일하는 노동자"라면, 이들은 “노동자에게 깨끗한 작업대를 제공하는 회사"인 셈입니다.

마무리하며

98%라는 숫자 자체보다 중요한 건, 우리가 AI 코딩의 비용 구조를 다시 봐야 한다는 신호입니다. 더 비싼 모델을 쓰기 전에, 더 똑똑한 인덱서를 쓰는 게 답일 수도 있다는 거죠. 여러분은 지금 쓰고 계신 AI 코딩 도구가 답을 찾는 데 쓰는 시간과, 답을 만드는 데 쓰는 시간 중 어느 쪽이 더 길다고 느끼시나요? 그 답에 따라 다음 1년의 도구 선택지가 꽤 달라질 겁니다.

AI 에이전트는 grep보다 98% 적은 토큰을 쓴다 — Semble이 까발린 컨텍스트 비용의 진짜 병목

grep은 왜 AI 에이전트에게 비싼 도구가 되었나

Semble의 접근: 검색 결과를 LLM이 아니라 인덱스가 이해한다

진짜 병목은 속도가 아니라 컨텍스트였다

“그냥 grep 쓰면 되지” 진영의 반론

진짜 변화는 “도구의 도구” 시장의 등장

마무리하며

댓글

관련 글

시키지도 않은 코드를 고치는 AI, '오버에디팅'이 드러낸 코딩 에이전트의 숨은 비용

LLM의 진짜 병목은 '기억력'이었다 — δ-mem이 던진 질문

26M 파라미터로 Gemini를 흉내낸다고? Needle이 던진 작은 모델의 반란