AMD 3분 소요

CUDA 독점에 균열이 생기고 있다 — AMD ROCm, AI 인프라의 두 번째 선택지는 진짜 가능한가

AI를 돌리려면 GPU가 필요하고, GPU를 쓰려면 CUDA가 필요합니다. 이 공식이 너무 오래 유지되면서, AI 업계 전체가 사실상 NVIDIA 한 회사에 종속되어 있다는 불안감이 커지고 있습니다. 그 틈을 노리는 가장 유력한 도전자가 바로 AMD의 ROCm입니다.

CUDA라는 해자, 정확히 얼마나 깊은가

NVIDIA의 진짜 경쟁력은 하드웨어가 아니라 소프트웨어입니다. CUDA는 2007년 출시 이후 거의 20년 가까이 GPU 컴퓨팅의 사실상 표준으로 자리 잡았습니다. PyTorch, TensorFlow, JAX 같은 주요 AI 프레임워크가 모두 CUDA를 기본 백엔드로 사용합니다.

여기에 cuDNN, cuBLAS, TensorRT, NCCL 같은 라이브러리 생태계가 겹겹이 쌓여 있습니다. 연구자가 논문을 쓸 때도, 엔지니어가 모델을 배포할 때도, 첫 번째 선택지는 언제나 CUDA입니다. 이건 단순한 시장 점유율이 아니라 생태계 잠금에 가깝습니다.

ROCm이 걸어온 길 — 그리고 아직 남은 거리

AMD의 ROCm(Radeon Open Compute)은 CUDA의 오픈소스 대안을 표방하며 등장했습니다. 특히 2024년 이후 MI300X 칩과 함께 본격적으로 AI 워크로드를 타겟하기 시작했고, 2025~2026년에 걸쳐 눈에 띄는 진전을 보이고 있습니다.

PyTorch가 ROCm을 공식 지원하면서 가장 큰 장벽 하나가 낮아졌습니다. Meta, Microsoft 같은 빅테크가 AMD GPU를 데이터센터에 도입하기 시작한 것도 긍정적인 신호입니다. 가격 대비 성능에서 NVIDIA H100 대비 경쟁력 있는 수치를 내놓고 있다는 벤치마크 결과도 나오고 있습니다.

하지만 현실의 벽은 여전합니다. 최근 테크 커뮤니티에서 반복적으로 지적되는 문제는 소프트웨어 성숙도입니다. 드라이버 안정성, 디버깅 도구의 부족, 특정 모델에서의 호환성 이슈 등이 실사용자들 사이에서 꾸준히 보고됩니다. “하드웨어는 괜찮은데 소프트웨어가 발목을 잡는다"는 평가가 2026년 4월 현재까지도 AMD를 따라다니는 꼬리표입니다.

엔터프라이즈가 원하는 건 ‘두 번째 옵션’이다

흥미로운 점은, AMD가 CUDA를 이길 필요가 없다는 것입니다. 이겨야 할 필요도 없습니다. 기업들이 원하는 건 벤더 종속 탈출입니다.

NVIDIA GPU 가격은 수요 폭증과 함께 천정부지로 올랐습니다. H100 한 장에 수천만 원, 클러스터를 구성하면 수백억 원 단위가 됩니다. 이런 상황에서 구매 담당자가 “대안이 하나도 없다"는 건 협상 테이블에서 치명적입니다. AMD MI300X가 80%만 따라가도, 가격이 30% 저렴하다면, 워크로드 일부를 분산하려는 기업은 분명 존재합니다.

실제로 Microsoft Azure, Oracle Cloud 등 주요 클라우드 사업자들이 AMD GPU 인스턴스를 확대하고 있습니다. 이건 AMD의 기술력에 대한 베팅이라기보다, NVIDIA에 대한 의존도를 줄이려는 전략적 판단에 가깝습니다.

개발자 경험이라는 진짜 전쟁터

결국 승부는 개발자 경험에서 갈립니다. CUDA가 강력한 이유는 성능만이 아닙니다. 문서가 잘 되어 있고, Stack Overflow에 답이 있고, 동료에게 물어보면 써본 사람이 있습니다. 이 집단 지식의 두께가 진짜 해자입니다.

ROCm이 넘어야 할 산은 바로 이 지점입니다. “hipify"라는 도구로 CUDA 코드를 ROCm용으로 변환할 수 있다고는 하지만, 복잡한 커스텀 커널에서는 수작업이 불가피합니다. 디버깅에서 막히면 참고할 자료가 CUDA 대비 현저히 적습니다. 개발자가 새벽 3시에 에러를 마주했을 때, 검색 한 번으로 답을 찾을 수 있느냐 — 이 차이가 생태계의 차이입니다.

제3의 변수들 — Triton, OpenAI, 그리고 추상화의 흐름

한 가지 주목할 흐름이 있습니다. GPU 프로그래밍의 추상화 레이어가 점점 높아지고 있다는 점입니다. OpenAI가 공개한 Triton 컴파일러는 CUDA에 직접 의존하지 않고도 GPU 커널을 작성할 수 있게 해줍니다. PyTorch 2.x의 torch.compile 역시 백엔드를 추상화하는 방향으로 진화하고 있습니다.

이런 추상화가 성숙해질수록, “어떤 GPU를 쓰느냐"의 중요도는 낮아지고 “어떤 프레임워크를 쓰느냐"의 중요도가 높아집니다. 이건 AMD에게 유리한 구조 변화입니다. CUDA라는 직접적인 벽을 넘지 않아도, 추상화 레이어 위에서 경쟁할 수 있는 길이 열리는 셈이니까요.


NVIDIA의 CUDA 생태계는 여전히 압도적이고, 솔직히 말해서 ROCm이 단기간에 이를 뒤집기는 어렵습니다. 하지만 AI 인프라 시장이 이대로 단일 벤더 독점을 유지할 것이라고 보는 사람도 많지 않습니다. 진짜 질문은 이것입니다 — AMD가 “충분히 좋은 두 번째 선택지"가 되는 시점은 언제이고, 그때 여러분의 인프라 전략은 준비가 되어 있을까요?

AMD ROCm NVIDIA CUDA GPU AI인프라

댓글

    댓글을 불러오는 중...