NVIDIA 3분 소요

엔비디아가 던진 2.6B 오픈소스 월드모델, Sora 독점을 깰 수 있을까

요즘 비디오 생성 AI 시장은 묘하게 닫혀 있습니다. OpenAI의 Sora, 구글의 Veo, 런웨이의 Gen-4까지 — 좋다는 모델은 죄다 API 뒤에 숨어 있죠. 그런데 엔비디아가 갑자기 판을 흔드는 카드를 꺼냈습니다. SANA-WM이라는 이름의 2.6B 파라미터 오픈소스 월드모델인데요, 노트북급 GPU로도 돌아가는 사이즈로 1분 길이의 720p 영상을 생성한다고 합니다.

2.6B가 왜 충격적인가

숫자만 보면 작아 보입니다. Sora의 추정 규모는 수십 B, Veo는 그보다 더 크다고 알려져 있죠. 그런데 SANA-WM은 그 10분의 1 수준으로 비슷한 해상도의 영상을 만들어냅니다.

핵심은 아키텍처입니다. 기존 비디오 디퓨전 모델들이 무거운 3D U-Net이나 풀스케일 DiT를 쓰는 반면, SANA-WM은 선형 어텐션과 깊은 압축 오토인코더를 결합해 연산량을 극단적으로 줄였습니다. 같은 720p 한 프레임을 만드는 데 들어가는 FLOPs가 기존 대비 한참 적다는 의미입니다.

소비자 입장에서 이게 왜 중요하냐면, RTX 5090 한 장이면 로컬에서 돌릴 수 있는 사이즈이기 때문입니다. 클라우드 API에 분당 요금을 내지 않아도, 본인 PC에서 영상을 뽑을 수 있다는 거죠.

“월드모델"이라는 단어의 무게

엔비디아가 굳이 “video generator"가 아니라 “world model"이라고 부른 점은 짚고 넘어가야 합니다. 월드모델은 단순히 예쁜 픽셀을 뽑는 게 아니라, 물리적 상호작용과 인과관계를 내부에 학습한 시뮬레이터를 뜻합니다.

엔비디아는 자율주행(드라이브), 로보틱스(아이작), 옴니버스 시뮬레이션까지 이미 월드모델이 절실히 필요한 사업 라인을 다 갖고 있습니다. SANA-WM은 단순히 틱톡 영상 잘 뽑는 모델이 아니라, 피지컬 AI 생태계의 베이스 모델로 깔겠다는 포석에 가깝습니다.

Sora가 영상 콘텐츠 시장을 노린다면, 엔비디아는 그 아래 레이어를 깔고 그 위에 자기네 칩과 SDK를 얹는 전략입니다. 결이 다른 게임이죠.

오픈소스라는 칼날

진짜 무서운 건 라이선스입니다. SANA-WM은 가중치까지 공개되는 진짜 오픈소스로 풀린다고 알려졌습니다. 허깅페이스에 weight가 올라가는 순간 무슨 일이 벌어지는지는 라마(Llama) 사례에서 이미 봤습니다.

스테이블 디퓨전 1.5가 풀렸을 때 LoRA 생태계가 폭발했던 것처럼, SANA-WM도 풀리는 순간 파인튜닝, 컨트롤넷, 캐릭터 일관성 어댑터 같은 파생 모델이 쏟아질 가능성이 높습니다. 이 생태계 효과는 클로즈드 모델이 절대 따라잡을 수 없는 영역입니다.

OpenAI와 구글 입장에선 골치가 아픕니다. Sora API를 분당 몇 달러에 팔고 있는데, 옆에서 “비슷한 품질 무료” 모델이 돌아다니면 가격 방어가 어려워지죠.

그래도 남는 의문들

물론 마냥 장밋빛은 아닙니다. 작은 모델이 큰 모델을 이긴 적은 벤치마크에선 흔하지만, 실제 사용 품질에선 다릅니다. 1분 길이 720p가 정말 일관성 있게 유지되는지, 복잡한 카메라 무빙이나 다중 객체 상호작용에서 무너지지 않는지는 직접 돌려봐야 압니다.

또 데이터 출처 문제도 있습니다. 엔비디아가 어떤 영상 데이터로 학습했는지, 저작권 이슈는 어떻게 해결했는지 — 오픈소스로 풀리는 만큼 이 부분은 더 빠르게 추궁받게 됩니다.

그리고 엔비디아의 진짜 의도. “오픈소스"라고 하지만 결국 자기네 GPU와 CUDA, TensorRT 위에서만 제대로 돌도록 최적화돼 있다면, 그건 일종의 생태계 락인입니다. 무료처럼 보이지만 결국 H100, B200을 더 팔기 위한 미끼일 수 있죠.

닫힌 시대의 균열

정리하면 이렇습니다. SANA-WM 자체가 Sora를 당장 무너뜨리진 않겠지만, “비디오 생성은 무조건 클로즈드 거대 모델"이라는 공식에 첫 균열을 냈다는 점이 중요합니다. 오픈소스 진영이 720p 1분짜리 영상을 노트북에서 뽑기 시작하면, 1년 뒤 시장 구도는 지금과 꽤 달라져 있을 겁니다.

여러분이라면 어떻게 보시나요. 진짜 오픈소스의 승리일까요, 아니면 엔비디아가 GPU를 더 팔기 위한 영리한 떡밥일까요. 둘 다일 가능성이 가장 높다는 게 제 생각입니다.

NVIDIA SANA-WM 월드모델 오픈소스AI 비디오생성

댓글

    댓글을 불러오는 중...