사이먼 윌리슨이 5분에 정리한 지난 6개월의 LLM — 2026년 봄, AI는 어디까지 왔나

AI 업계에서 6개월은 다른 산업의 6년에 맞먹는 시간입니다. 너무 빠르게 흘러가서 어디부터 따라가야 할지 모르겠다는 분들이 많은데요. 그럴 때 가장 믿을 만한 가이드 중 한 명이 바로 사이먼 윌리슨(Simon Willison)입니다. Django 웹 프레임워크의 공동 창시자이자, 매일같이 LLM 동향을 정리하는 그의 블로그는 이미 개발자들 사이에서 필독 자료가 됐죠.

그가 최근 정리한 “지난 6개월의 LLM 요약"이 화제입니다. 2025년 말부터 2026년 봄까지, AI 세계에서 벌어진 굵직한 변화들을 압축해서 보여주는데요. 그 핵심을 함께 짚어보겠습니다.

추론 모델이 게임의 룰을 바꿨다

가장 큰 변화는 추론(reasoning) 모델의 폭발적 확산입니다. OpenAI가 o1을 처음 공개했을 때만 해도 “이게 정말 필요한가?“라는 회의론이 있었는데요. 6개월이 지난 지금은 완전히 다른 풍경이 됐습니다.

Anthropic, Google, DeepSeek, xAI까지 거의 모든 주요 플레이어가 추론 모델을 내놓았고, 가격은 빠르게 떨어졌습니다. 사이먼이 강조하는 포인트는 이겁니다. “이제 LLM은 답을 즉답하는 도구가 아니라, 생각하는 도구가 됐다”는 것이죠.

수학 올림피아드급 문제를 푸는 능력이 평범한 모델에도 들어오기 시작했고, 코딩 벤치마크 점수는 이미 인간 전문가 수준을 넘어선 지 오래입니다. Lenny’s Podcast의 최근 에피소드 “AI state of the union”이 19만 뷰를 넘기며 “변곡점을 지났다(passed the inflection point)“고 단언한 것도 같은 맥락입니다.

에이전트의 시대가 진짜로 시작됐다

작년 이맘때 “AI 에이전트"는 데모용 키워드에 가까웠습니다. 멋있어 보이지만 실제로 일을 맡기긴 불안한 수준이었죠. 그런데 사이먼은 지난 6개월 동안 분위기가 결정적으로 바뀌었다고 봅니다.

Anthropic의 Claude Code, OpenAI의 Operator, 그리고 다양한 오픈소스 에이전트 프레임워크들이 실제로 한 시간 단위, 하루 단위의 작업을 수행하기 시작했습니다. 코드를 짜고, 테스트를 돌리고, 버그를 잡고, PR을 올리는 일련의 과정을 사람 개입 없이 처리하는 사례가 늘었죠.

물론 여전히 실패도 많습니다. 사이먼이 솔직하게 인정하는 부분인데요. 에이전트가 잘못된 방향으로 폭주하면 토큰을 수십만 개씩 태우고 엉뚱한 결과를 내놓기도 합니다. 하지만 그가 강조하는 건 “성공률이 충분히 높아져서 실제 워크플로우에 끼워 넣을 수 있게 됐다”는 점입니다.

멀티모달이 당연한 기본기가 됐다

6개월 전만 해도 “이미지를 읽는 LLM"은 자랑거리였습니다. 지금은 그게 기본 사양입니다. 텍스트, 이미지, 오디오, 동영상까지 한 번에 처리하는 모델이 표준이 됐고, 가격도 놀랄 만큼 저렴해졌습니다.

사이먼이 자주 드는 예시는 오디오 입력입니다. 회의 녹음 파일을 통째로 던지면 요약, 액션 아이템 추출, 화자 분리까지 한 번에 처리되는 시대입니다. 동영상 이해도 마찬가지로, 한 시간짜리 강연을 던지면 핵심을 정리해주죠.

여기서 사이먼이 던지는 질문이 흥미롭습니다. “이 기능들이 이렇게 강력한데 왜 일반 사용자들은 거의 안 쓰고 있을까?" 그의 답은 정보 비대칭입니다. 기술은 폭발적으로 발전했는데, 평범한 사용자들은 여전히 ChatGPT에 텍스트만 던지고 있다는 거죠.

가격 폭락과 오픈소스의 약진

지난 6개월에서 가장 놀라운 숫자 중 하나는 토큰 가격입니다. GPT-4 수준의 성능이 1년 전과 비교해 거의 1/100 가격까지 떨어졌습니다. 사이먼은 이를 두고 “한 번도 본 적 없는 속도의 디플레이션"이라고 표현했죠.

여기에 중국발 오픈소스 모델의 약진이 결정적이었습니다. DeepSeek, Qwen, Kimi 같은 모델들이 프론티어 수준의 성능을 무료에 가깝게 공개하면서, 폐쇄형 모델들도 가격 인하 압박을 받고 있습니다.

이게 의미하는 바는 분명합니다. 이제 AI는 비싼 자원이 아니라 흔한 인프라가 되어가고 있다는 것이죠. 사이먼은 “지금 AI를 안 쓰는 건 2005년에 구글 검색을 안 쓰는 것과 같다"고까지 말합니다.

그런데 우리는 정말 준비됐을까

사이먼이 마지막에 던지는 메시지는 묵직합니다. 기술은 무서운 속도로 발전했는데, 이걸 어떻게 쓸지에 대한 사회적 합의는 거의 진전이 없다는 지적이죠.

신뢰성 문제는 여전합니다. 환각(hallucination)은 줄어들었지만 사라지지 않았고, 추론 모델조차 자신감 있게 틀린 답을 내놓는 경우가 많습니다. 보안 측면에서는 프롬프트 인젝션이 여전히 풀리지 않은 숙제로 남아 있고, 에이전트가 권한을 갖기 시작하면서 위험은 오히려 커졌습니다.

지난 6개월은 AI가 “흥미로운 데모"에서 “진짜 도구"로 넘어간 시기였습니다. 사이먼의 정리가 인상적인 건, 화려한 마케팅을 걷어내고 실제로 무엇이 가능해졌는지를 보여줬다는 점인데요. 여러분은 이 변화 속에서 어디쯤 서 계신가요? 매일 AI를 손에 익히고 계신지, 아니면 아직도 “나중에 한번 봐야지"라고 미루고 계신지 말이죠.

사이먼 윌리슨이 5분에 정리한 지난 6개월의 LLM — 2026년 봄, AI는 어디까지 왔나

추론 모델이 게임의 룰을 바꿨다

에이전트의 시대가 진짜로 시작됐다

멀티모달이 당연한 기본기가 됐다

가격 폭락과 오픈소스의 약진

그런데 우리는 정말 준비됐을까

댓글

관련 글

26M 파라미터로 Gemini를 흉내낸다고? Needle이 던진 작은 모델의 반란

필즈상 수학자가 직접 써본 GPT-5.5 Pro, AI는 정말 수학을 하기 시작했을까

1200만 토큰 컨텍스트의 충격: Subquadratic이 트랜스포머 시대를 끝낼까