[GTC2026]엔비디아 '베라 루빈' 스펙 공개…연산력 3배·추론 효율 10배 도약

엔비디아 '베라 루빈'.〈사진=엔비디아 뉴스룸〉
엔비디아 '베라 루빈'.〈사진=엔비디아 뉴스룸〉

엔비디아가 16일(현지시간) 미국 캘리포니아주 산호세에서 열린 'GTC 2026'에서 차세대 AI 플랫폼 '베라 루빈(Vera Rubin)'의 상세 스펙을 공개하며 에이전틱 AI(Agentic AI) 시대의 인프라 표준을 제시했다. 베라 루빈은 앞서 올해 1월 CES2026에서 소개됐으나 성능 지표와 생산 일정 등은 이번이 첫 공개다.

에이전틱 AI의 고대역폭·저지연 수요를 충족하기 위해 설계된 베라 루빈 플랫폼은 CPU, GPU, LPU를 단일 생태계로 통합했다. 총 7개 신규 칩(베라 CPU, 루빈 GPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 이더넷 스위치, Groq 3 LPU)과 5개의 랙 타입으로 구성된다. 이전 세대인 블랙웰(Blackwell) 플랫폼 대비 전문가 혼합(MoE) 모델 훈련 시 필요한 GPU 수량을 4분의 1로 줄였다. 또한, 추론 처리량과 와트당 성능은 10배 향상되었으며, 토큰당 비용은 10분의 1 수준으로 절감됐다.

에이전틱 AI 워크로드를 위한 베라 CPU는 엔비디아가 독자 설계한 '올림푸스 코어(Olympus Core)' 아키텍처를 탑재했다. 스크립팅, 텍스트 변환, 코드 컴파일 등 에이전트 작업에서 이전 세대 대비 2배의 성능 향상을 입증했다. 256개의 수냉식 베라 CPU가 탑재된 랙은 4100TB의 메모리와 초당 300TB의 대역폭을 제공한다. 고객사로는 알리바바, 바이트댄스, 메타, 오라클 클라우드, 코어위브(CoreWeave), 람다 등 글로벌 클라우드·AI 랩이 준비 중이다.

루빈 GPU는 288GB의 고대역폭 메모리(HPN4)를 탑재해 연산을 수행하며, 새롭게 통합된 그로크(Groq) 3 LPU는 초당 22TB에서 150TB에 이르는 예외적인 대역폭으로 초저지연 토큰 생성에 최적화되었다. 랙당 256개의 LPU가 탑재된 이 랙은 루빈 GPU와 결합해 모든 계층 및 토큰의 디코드(Decode) 성능을 극대화한다. 이를 통해 프리미엄 및 울트라 모델에서 35배 향상된 처리량을 제공하며, 조 단위(Trillion) 매개변수 모델 서비스 환경에서 운영사에게 10배의 수익 창출 기회를 준다.

이와 더불어 엔비디아는 AI 모델 성장의 네 번째 단계로 AI가 다른 AI와 대화하는 '에이전틱 스케일링(Agentic scaling)'을 제시했다. 이는 사전 훈련(Pre-training), 사후 훈련(Post-training), 테스트 타임 확장(Test-time scaling)에 이은 AI 성장의 새로운 패러다임이다.

젠슨 황 CEO는 “베라 루빈은 7개의 획기적인 칩, 5개의 랙, 그리고 하나의 거대한 슈퍼컴퓨터로 구성된, AI의 모든 단계를 지원하도록 설계된 세대적 도약”이라며 “베라 루빈은 역사상 가장 큰 규모의 인프라 구축을 시작하며 에이전트 기반 AI의 변곡점을 맞이했다”고 강조했다.

이형두 기자 dudu@etnews.com