컴퓨터 직접 조작하는 AI, API보다 45배 비싸다 — 화려한 데모의 불편한 청구서
요즘 테크 컨퍼런스에서 가장 환호받는 데모가 뭔지 아세요? AI가 직접 마우스를 움직이고, 브라우저를 열고, 양식을 채우는 영상입니다. “사람처럼 컴퓨터를 쓴다"는 메시지는 강력하죠. 그런데 최근 공개된 비용 분석을 보면, 이 화려한 시연 뒤에는 45배라는 무시무시한 청구서가 따라옵니다.
같은 일을 시켰는데 비용이 45배
비교 자체는 단순합니다. “고객 정보를 조회해서 송장을 발행하라"는 작업을 두 가지 방식으로 처리해봅니다. 하나는 잘 정의된 REST API를 호출하는 전통적인 방식, 다른 하나는 컴퓨터 유즈(Computer Use) 에이전트가 화면을 보고 클릭하는 방식입니다.
결과는 잔인합니다. 같은 결과물을 얻기 위해 컴퓨터 유즈 방식이 토큰을 40~50배 더 소모합니다. 화면 스크린샷을 매 단계 모델에 입력으로 넣어야 하고, 다음 액션을 추론하는 데 또 토큰이 들어가기 때문이죠. API 호출은 한두 번의 함수 콜로 끝나는 일이, 에이전트한테는 수십 번의 “보고-생각하고-클릭하는” 루프가 됩니다.
비용을 끌어올리는 진짜 범인은 스크린샷
엔지니어들이 가장 충격받는 지점은 따로 있습니다. 바로 비전 토큰입니다. 1024x768 해상도의 스크린샷 한 장이 보통 1,5002,000개 토큰을 잡아먹는데요. 에이전트가 한 작업을 끝내는 동안 이런 스크린샷을 2050번 찍어 모델에 보냅니다.
여기에 이전 단계의 컨텍스트를 계속 들고 가야 하니, 후반부로 갈수록 입력 토큰이 누적됩니다. “버튼이 어디 있더라” 같은 사소한 판단 하나하나에 비전 추론이 붙는 구조라, 비용 곡선이 선형이 아니라 거의 지수적으로 커진다는 분석도 있습니다.
그럼에도 컴퓨터 유즈가 의미 있는 이유
물론 모든 경우에 API가 정답은 아닙니다. 진짜 문제는 API가 없는 시스템입니다. 레거시 ERP, 사내 인트라넷, 오래된 SaaS는 외부에서 호출할 인터페이스 자체가 없죠. 이런 곳에서는 사람이 손으로 클릭하는 방식 외에 자동화할 길이 없었습니다.
컴퓨터 유즈 에이전트는 이 영역을 처음으로 열었다는 점에서 의미가 있습니다. 45배 비싸도 사람 인건비보다는 싸고, 무엇보다 24시간 돌릴 수 있으니까요. “API가 있다면 무조건 API"지만, “API가 없다면 컴퓨터 유즈가 유일한 답"인 겁니다.
실무자가 지금 따져봐야 할 것들
이번 비용 논쟁에서 가장 중요한 교훈은 도구 선택의 기준입니다. 화려한 데모에 끌려 무작정 컴퓨터 유즈부터 도입하면, 월말 청구서를 보고 프로젝트가 동결되는 일이 흔합니다.
체크리스트는 간단합니다. 첫째, 대상 시스템에 API나 SDK가 있는가. 둘째, RPA 같은 결정론적 도구로 대체 가능한가. 셋째, 정말 LLM의 추론이 필요한 단계가 어디까지인가. 이 세 질문을 통과한 다음에야 컴퓨터 유즈를 꺼내 드는 게 맞습니다.
마무리
기술 데모는 가능성을 보여주지만, 비용 구조는 한계를 보여줍니다. 컴퓨터 유즈 에이전트의 45배 청구서는 “AI가 뭐든 다 한다"는 환상에 찬물을 끼얹는 동시에, 진짜로 필요한 곳이 어디인지 가려내는 필터가 되어줍니다.
여러분이 자동화하려는 그 업무, 정말 사람처럼 화면을 봐야만 하나요? 아니면 5분만 찾아보면 API 문서가 어딘가에 숨어 있을까요? 이 질문에 답하는 것만으로도 청구서가 30배 가벼워질지 모릅니다.
댓글
댓글을 불러오는 중...