Ollama 3분 소요

Ollama, 그만 쓰라고요? 로컬 LLM 추론의 대안을 찾는 사람들

로컬에서 LLM을 돌려본 사람이라면 열에 아홉은 Ollama부터 설치합니다. ollama run llama3라는 한 줄이면 끝이니까요. 그런데 최근 개발자 커뮤니티에서 “Stop Using Ollama"라는 자극적인 문장이 심심치 않게 보이기 시작했습니다. 모두가 당연하게 쓰던 도구에 왜 지금 제동이 걸리는 걸까요.

Ollama가 사랑받은 이유

Ollama의 성공 공식은 단순합니다. 복잡한 걸 간단하게 만들어준 거죠. llama.cpp를 직접 빌드하고, 모델 파일을 수동으로 변환하고, 양자화 옵션을 하나하나 지정해야 했던 시절을 생각하면 혁명적이었습니다. Docker처럼 모델을 pull하고 run하는 경험은 로컬 AI 진입 장벽을 극적으로 낮췄고, 2024년부터 2025년까지 폭발적으로 사용자가 늘었습니다.

문제는, 그 편리함에 가려진 것들이 하나둘 드러나고 있다는 점입니다.

비판의 핵심: 추상화가 삼킨 성능

Ollama에 대한 불만은 대부분 한 가지로 수렴합니다. 성능 오버헤드입니다.

Ollama는 내부적으로 llama.cpp를 래핑(wrapping)한 구조입니다. 직접 llama.cpp를 실행하는 것 대비 추가적인 레이어가 끼어 있다는 뜻이죠. 이 레이어가 제공하는 편의성은 분명하지만, 동시에 세밀한 하드웨어 제어를 가로막기도 합니다. GPU 메모리 할당, 배치 크기, 컨텍스트 길이 같은 파라미터를 자동으로 결정해주는 게 초보자에겐 축복이지만, 하드웨어를 100% 쥐어짜고 싶은 사용자에겐 족쇄가 됩니다.

특히 눈에 띄는 비판은 Mac 사용자들에게서 나옵니다. Apple Silicon Mac에서 Ollama를 돌리면, 내부적으로 llama.cpp의 Metal 백엔드를 사용합니다. 하지만 Apple이 직접 최적화한 MLX 프레임워크를 쓰면 동일한 모델에서 최대 2배 빠른 추론 속도를 뽑을 수 있다는 비교 영상이 최근 등장했습니다. “당신의 Mac LLM 셋업은 절반의 속도만 내고 있다"는 제목의 영상이 개발자들 사이에서 공유되며 논쟁에 불을 붙인 거죠.

llama.cpp 직접 실행이라는 선택지

“그냥 llama.cpp를 직접 쓰면 되지 않나?“라는 질문은 당연하게 나옵니다. 실제로 많은 파워 유저들이 이 방향으로 돌아가고 있습니다.

llama.cpp는 Ollama의 심장부이기도 한 오픈소스 프로젝트로, C/C++로 작성되어 CPU와 GPU 모두에서 효율적으로 LLM을 실행합니다. 직접 사용하면 양자화 방식(Q4_K_M, Q5_K_S 등)을 세밀하게 선택할 수 있고, GPU 레이어 오프로딩 수를 정확히 지정할 수 있으며, 서버 모드로 띄워서 API 호환 엔드포인트를 직접 구성할 수도 있습니다.

물론 진입 장벽은 Ollama보다 높습니다. 하지만 최근에는 llama.cpp 자체의 사용 편의성도 많이 개선되었고, Hugging Face에서 GGUF 포맷 모델을 바로 받아 실행할 수 있어 과거만큼 어렵지는 않습니다.

Mac 사용자라면: MLX가 답일 수 있다

Apple Silicon을 쓴다면 MLX 생태계를 한번 살펴볼 가치가 있습니다. MLX는 Apple이 만든 머신러닝 프레임워크로, M 시리즈 칩의 통합 메모리 아키텍처에 최적화되어 있습니다. CPU와 GPU가 메모리를 공유하는 Apple Silicon의 특성을 네이티브 수준에서 활용하는 거죠.

mlx-lm이라는 패키지를 쓰면 pip install mlx-lm 한 줄로 설치하고, Hugging Face에 올라온 MLX 변환 모델을 바로 실행할 수 있습니다. Ollama만큼은 아니더라도 꽤 간편해진 셈입니다. 특히 긴 문맥을 처리하거나 연속적으로 토큰을 생성하는 작업에서 체감 속도 차이가 크다는 보고가 이어지고 있습니다.

그래서, Ollama를 정말 버려야 할까

솔직히 말하면, 대부분의 사용자에게 Ollama는 여전히 좋은 선택입니다. 설치 30초, 실행 한 줄이라는 경험은 대체하기 어렵습니다. 로컬 AI를 처음 접하는 사람에게 “llama.cpp를 빌드하세요"라고 말하는 건 “자동차 사지 말고 엔진부터 조립하세요"와 다를 바 없으니까요.

다만, 이런 경우라면 대안을 고려해볼 만합니다.

  • Mac에서 최대 성능을 원한다면 MLX 기반 도구를 시도해보세요
  • 프로덕션 수준의 서빙이 필요하다면 vLLM이나 TGI(Text Generation Inference)가 더 적합합니다
  • 세밀한 하드웨어 제어가 필요하다면 llama.cpp 직접 실행을 권합니다
  • GUI 환경을 원한다면 LM Studio도 깔끔한 대안입니다

결국 이 논쟁의 본질은 “Ollama가 나쁘다"가 아니라, 로컬 AI 추론 생태계가 성숙하면서 선택지가 다양해졌다는 것에 가깝습니다. 하나의 도구가 모든 상황을 커버하던 시기는 지나가고 있습니다.

여러분은 로컬에서 LLM을 어떻게 돌리고 계신가요? 혹시 Ollama에서 다른 도구로 갈아탄 경험이 있다면, 체감 차이가 어땠는지 궁금합니다.

Ollama 로컬LLM llama.cpp MLX AI추론

댓글

    댓글을 불러오는 중...