GPU가 아니다… GTC2026 엔비디아 AI 팩토리 구조 대해부
[GTC 2026] 베라 루빈 플랫폼의 의미 ②
-엔비디아의 경쟁력은 GPU가 아니라 시스템 전체를 설계하는 능력
-쿠다와 익스트림 코디자인이 결합, 추격 어려운 구조적 해자를 만들어
-NVL72는 랙 자체를 하나의 컴퓨터로 바꾸며 인프라 단위를 재정의
-AI 패권은 칩이 아니라 플랫폼과 구조를 누가 장악하느냐에서 결정된다
1편에서 살펴본 것처럼, 엔비디아가 정의한 AI는 더 이상 ‘연산 장치’가 아니라 ‘토큰을 생산하는 공장’이다.
그 공장을 실제로 구현한 것이 바로 베라 루빈 플랫폼이고, 그 설계 철학이 가장 집약된 형태가 ‘NVL72’다.
NVL72는 단일 랙 안에 루빈 GPU 72개와 베라 CPU 36개를 탑재하고, NV링크 6, 스펙트럼-X, 블루필드-4, CMX 스토리지, 커넥트X-9까지 총 7종의 칩을 하나로 묶은 통합 시스템이다. 총 GPU 메모리만 20.7TB, LPDDR5X를 포함한 전체 고속 메모리는 75TB에 달하며, 추론 성능은 3,600 PFLOPS, 즉 3.6 엑사플롭스에 이른다.
그러나 이 시스템의 진짜 의미는 수치에 있지 않다.
칩을 쌓는 방식에서 벗어나, 랙 자체를 하나의 거대한 컴퓨터로 재정의했다는 점에 있다.
젠슨 황은 이를 ‘컴퓨팅 단위의 변화’라고 설명한다.
과거에는 GPU가 단위였다면, 이제는 전력망에 연결된 AI 팩토리 전체가 하나의 단위가 된다. NVL72는 그 전환이 처음으로 물리적으로 구현된 사례다.
황 CEO는 이 전환을 이렇게 설명했다.
"과거 엔비디아에서 컴퓨팅의 단위는 GPU였다. 신제품 발표 시 칩을 들어올리는 것이 일반적인 모습이었다. 그러나 이제 내 정신 모델(Mental Model)은 칩이 아니라, 전력망에 연결된 거대한 기가와트 규모의 AI 팩토리다."
기존의 데이터센터 구조는 독립적인 서버 노드들을 네트워크로 연결하는 방식이었다. 베라 루빈 NVL72는 랙 자체를 처음부터 하나의 거대한 가속기로 설계한다. 내부 배관, 냉각, 케이블, 유지보수까지 통합 최적화한 결과, 유지보수 시간이 블랙웰 대비 최대 18배 단축됐다"
이 랙을 하나로 묶는 핵심 기술이 6세대 NV링크(Link)다. NV링크는 랙 안에 있는 72개의 GPU를 마치 하나의 거대한 프로세서처럼 연결하는 초고속 내부 통신망이다. 일반 컴퓨터 부품들이 도로로 연결된다면, NV링크는 빛의 속도에 가까운 전용 터널을 뚫어준다고 이해하면 된다. GPU당 초당 3.6TB의 대역폭, 72개 GPU 전체를 합치면 총 260TB/s의 대역폭을 갖는 단일 성능 도메인이 만들어진다. 블랙웰 대비 2배 이상의 상호 연결 성능이다.
물리적 설계도 주목할 만하다.
랙 전체를 수냉식으로 설계했으며 지능형 전력 평활화 기술을 통해 워크로드의 급격한 변동에도 안정적인 전력 공급을 보장한다. 데이터센터 설치 면적을 75%까지 줄이는 효과도 가져온다.
황 CEO는 "AI 스케일링의 주요 병목 중 하나가 전력이다"고 강조하며, 전력망의 잉여 전력을 활용하는 혁신적 계약 구조를 제안하기도 했다.
"전력망은 최악의 상황에 대비해 설계 돼 평소에는 60% 정도만 가동된다. 99%의 시간 동안 잉여 전력이 발생한다. 데이터센터가 사회 인프라에 최대 전력이 필요할 때 소비를 줄이는 계약을 맺으면 이 잉여 전력을 활용할 수 있다"