AI 3분 소요

초당 200토큰? 그런데 왜 체감은 굼뜰까 - AI 속도 지표의 함정

“초당 200토큰.” AI 모델 발표회에서 이런 숫자가 나오면 자연스럽게 “오, 엄청 빠르네"라고 생각하게 됩니다. 그런데 막상 그 모델을 직접 써보면 화면에 답이 뜨기까지 한참을 기다리는 경험, 다들 한 번쯤 해보셨을 겁니다. 왜 벤치마크 숫자와 실제 체감 속도는 이렇게 다른 걸까요. 오늘은 이 tokens per second라는 지표가 어떻게 우리를 속이고 있는지 뜯어보겠습니다.

토큰이라는 단위 자체가 일정하지 않다

먼저 짚고 가야 할 게 있습니다. 토큰은 글자도 단어도 아닙니다. 모델마다 토크나이저가 다르고, 같은 문장이라도 토큰 수가 들쭉날쭉하다는 뜻입니다.

예를 들어 “안녕하세요"라는 한 단어가 어떤 모델에서는 1토큰, 어떤 모델에서는 4토큰으로 쪼개집니다. 한국어, 일본어, 중국어 같은 비영어권 언어는 특히 더 불리합니다. 영어 기준으로는 평균적으로 한 토큰이 약 4글자 정도지만, 한국어는 한 글자가 통째로 여러 토큰이 되는 경우도 흔합니다.

그러니까 “초당 200토큰"이라는 모델이 영어로는 한 페이지를 8초에 뽑아내지만, 한국어로는 같은 분량을 만드는 데 30초가 걸릴 수도 있다는 얘기입니다. 같은 숫자, 다른 체감.

TTFT가 진짜 답답함을 만든다

벤치마크에 잘 등장하지 않는 또 다른 지표가 있습니다. TTFT(Time To First Token), 즉 첫 토큰이 나오기까지 걸리는 시간입니다.

생각해보면 우리가 “느리다"고 느끼는 순간은 답이 다 나올 때가 아니라 첫 글자가 안 뜨는 그 침묵의 몇 초입니다. 초당 토큰 수가 아무리 높아도 TTFT가 3초면 사용자는 이미 짜증을 내기 시작합니다.

특히 긴 프롬프트를 넣을 때 이 문제가 커집니다. 모델이 입력을 다 읽고 이해해야 첫 토큰을 뱉기 때문에, 입력이 길수록 침묵의 시간도 길어집니다. RAG 시스템처럼 컨텍스트를 잔뜩 집어넣는 환경에서는 평균 TPS 수치보다 TTFT가 사용자 경험을 좌우합니다.

배치 처리와 1인 사용은 다른 게임

벤치마크에서 자랑하는 처리량은 대개 배치 처리 기준입니다. 한 번에 수십, 수백 개의 요청을 동시에 GPU에 욱여넣으면 전체 토큰 처리량은 어마어마하게 올라갑니다.

하지만 여러분이 챗봇에 질문 하나 던질 때는 이야기가 다릅니다. 동시 요청이 1개일 때의 속도는 배치 환경의 절반 이하인 경우도 많습니다. 회사가 발표하는 “초당 처리량"과 개인이 체감하는 “내 질문에 답하는 속도"는 완전히 다른 지표라는 뜻입니다.

NVIDIA 같은 하드웨어 회사들도 이 점을 잘 활용합니다. 데이터센터 GPU 한 장이 초당 몇만 토큰을 처리한다는 식의 마케팅은 단일 사용자 환경에서 거의 의미가 없습니다.

추론 모델은 토큰을 낭비한다

요즘 유행하는 reasoning model들은 또 다른 변수를 던집니다. 답을 내기 전에 속으로 길게 생각하는 모델들 말입니다. 이런 모델은 사용자에게 보여주지 않는 “사고 토큰"을 수천 개씩 만들어냅니다.

그러니까 같은 초당 100토큰 모델이라도, 일반 모델은 사용자가 볼 답을 100토큰 만드는 동안 추론 모델은 그 100토큰 중 80개를 혼자 생각하느라 써버립니다. 결과적으로 사용자 입장에서는 “보이는 답이 나오는 속도"가 5분의 1로 줄어든 셈입니다.

벤치마크 숫자가 같아도 실제 응답을 받기까지 걸리는 시간은 천차만별이라는 얘기입니다.

네트워크와 인프라가 숨겨진 변수

마지막으로 흔히 간과되는 부분이 있습니다. 모델이 GPU에서 토큰을 뽑아내는 속도와, 그게 여러분 화면에 뜨는 속도는 별개입니다. 네트워크 지연, 스트리밍 구현 방식, 클라이언트 렌더링까지 모두 체감 속도에 영향을 줍니다.

API로 받은 토큰을 한 번에 모아서 보내는 서비스와 실시간 스트리밍으로 흘려보내는 서비스는 같은 모델을 써도 완전히 다르게 느껴집니다. 모델 자체가 빨라도 인프라가 받쳐주지 않으면 의미가 없습니다.

결국 숫자보다 경험이 정답

“초당 N토큰"은 마치 자동차의 최고 속도 같은 지표입니다. 카탈로그에는 시속 250km로 적혀있지만, 실제 출퇴근길에서는 정체 때문에 평균 30km가 안 나오는 그런 느낌이죠. 모델을 평가할 때는 TTFT, 언어별 토큰 효율, 단일 사용자 응답 속도, 추론 토큰 비율까지 함께 봐야 합니다.

여러분이 다음에 AI 모델 발표를 볼 때 “초당 토큰” 숫자만 보지 말고, “그 숫자가 어떤 조건에서 측정됐는지” 한 번 더 의심해보시기 바랍니다. 그래야 마케팅에 속지 않고 진짜 빠른 모델을 고를 수 있을 테니까요.

AI LLM 벤치마크 추론속도 토큰

댓글

    댓글을 불러오는 중...