AWS, 엔비디아 블랙웰 기반 AI 인프라 공개···대규모 AI 훈련·추론 대응 서버 출시

[사진= AWS 제공]
[사진= AWS 제공]

아마존웹서비스(AWS)가 엔비디아의 최신 블랙웰 그래픽처리장치(GPU) 아키텍처를 기반으로 한 두 가지 차세대 인공지능(AI) 컴퓨팅 인프라를 공개했다.

신규 P6e-GB200 울트라서버와 P6-B200 인스턴스는 각각 조 단위 파라미터 규모의 대형 AI 모델 훈련과 대규모 추론 워크로드를 위한 고성능 환경을 제공한다.

P6e-GB200 울트라서버는 최대 72개의 엔비디아 블랙웰 GPU를 장착한다. 이를 5세대 NV링크(NVLink)로 연결해 단일 시스템처럼 작동한다. 총 360페타플롭스(FP8 기준)의 연산 성능과 13.4테라바이트(TB)의 고대역폭 GPU 메모리(HBM3e)를 제공한다. 기존 P5en 인스턴스 대비 최대 20배의 연산 성능, 11배의 메모리 용량을 구현한다.

AWS는 이 제품이 조 단위 매개변수를 가진 AI 프론티어 모델의 분산 훈련과 초대형 추론 작업에 적합하다고 설명했다.

특히 대규모 모델을 단일 NV링크 도메인 내에서 처리함으로써 GPU 간 통신 지연을 줄이고 일관된 추론 응답 시간을 확보할 수 있다는 점을 강조했다.

P6-B200 인스턴스는 8개의 블랙웰 GPU와 1.4TB의 GPU 메모리를 탑재했다. 중대형 AI 워크로드와 기존 시스템에서 마이그레이션을 염두에 뒀다. 5세대 인텔 제온 스케일러블 프로세서와 최대 3.2Tbps의 네트워크 대역폭을 지원한다.

AWS는 P5en 대비 GPU 연산 성능은 2.25배, 메모리 대역폭은 1.6배 향상됐다고 설명했다.

두 제품 모두 AWS의 6세대 니트로 시스템을 탑재했다. 니트로 시스템은 AWS 인프라 내 보안과 운영 안정성을 높이는 핵심 기술이다. 고객 데이터 접근 제한과 무중단 시스템 업데이트 등을 지원한다.

AWS는 P6e-GB200 울트라서버를 3세대 EC2 울트라클러스터에 적용한다. 이 클러스터는 단일 패브릭으로 최대 규모 데이터센터 수준까지 확장할 수 있다. 전력 소비를 40%, 케이블링은 80% 이상 줄이는 등 효율성을 확보했다.

AWS 관계자는 “엔비디아 블랙웰 아키텍처 도입은 단순한 하드웨어 업그레이드가 아니라 컴퓨팅부터 네트워크, 냉각, 보안까지 전 계층에 걸친 인프라 혁신의 결과”라며 “고객이 보다 안정적이고 효율적인 환경에서 차세대 AI를 구현하도록 지원할 것”이라고 밝혔다.

류태웅 기자 bigheroryu@etnews.com