[기고] 칩에서 AI 팩토리까지, 열(熱)이 AI의 미래를 결정한다

패드메쉬 맨들로이 시높시스 애플리케이션 엔지니어링 부문 부사장. 사진=시높시스
패드메쉬 맨들로이 시높시스 애플리케이션 엔지니어링 부문 부사장. 사진=시높시스

노트북을 오래 쓰다 보면 바닥이 뜨거워지는 경험을 누구나 해봤을 것이다. 팬이 요란하게 돌아가고, 그래도 식지 않으면 결국 속도가 줄거나 꺼져버린다. 이것이 열이 연산을 지배하는 방식이다. 지금 전 세계 AI 산업에서 똑같은 일이, 훨씬 거대한 규모로 벌어지고 있다.

AI 서비스 수요 폭증으로 데이터센터는 새로운 국면을 맞고 있다. 오늘날 AI 연산을 처리하는 시설은 'AI 팩토리'라는 이름이 더 어울린다. 랙 하나가 아파트 단지 수준의 전력을 소비하고, 시설 전체가 중소 도시만큼의 에너지를 쓴다. 성공의 척도도 달라졌다. 시설의 규모가 아니라 와트당 토큰, 달러당 토큰이 핵심 지표다. 그리고 이 경쟁에서 승패를 가르는 변수가 바로 열이다.

엔비디아 블랙웰 B200 GPU 하나가 최대 1,200W를 소비하고, 차세대 Vera Rubin NVL72 랙은 120~130kW에 달한다. 10년 전 랙 대비 10배가 넘는 수치다. 랙 밀도가 50~150kW에 달하는 환경에서 공냉은 한계에 부딪혔고, 액체 냉각과 2상 냉각이 새로운 표준이 됐다. 냉각 역량이 곧 연산 역량을 결정하는 시대다.

수천 가지 냉각 시나리오를 실물로 실험하면 비용과 시간이 감당이 안 된다. 물리 기반 시뮬레이션이 이 과정을 디지털 공간으로 끌어들인다. 칩·패키지 레벨에서 RedHawk-SC는 실제 실리콘 대비 3% 미만 오차로 열·응력을 예측해 설계 초기에 문제를 잡아낸다. 서버·랙 레벨에서는 앤시스 아이스팩(Ansys Icepak)이 기류와 열 전달을 시뮬레이션하고, 앤시스 플루언트가 액체 냉각과 2상 유동을 해석한다. 시설 전체는 앤시스 서멀 데스크탑이 수백 개 채널과 수십~수백 개 랙을 효율적으로 모델링한다.

여기에 AI가 더해지면 속도의 차원이 달라진다. 앤시스 SimAI는 30초 안에 2% 이내 오차의 결과를 내놓고, 앤시스 GeomAI는 엔지니어가 생각지 못한 새로운 냉각 구조를 스스로 제안한다. 팩토리 전체를 하나의 가상 모델로 통합하는 앤시스 트윈 빌더는 장비 고장을 사전에 예측하고 전력사용효율(PUE)을 최적화한다. 시높시스는 미국 에너지부(DOE)가 지원하는 'Project OMNICOOL'의 핵심 파트너로, 메가와트(MW) 규모 2상 액체 냉각을 물리 기반 디지털 트윈으로 구현하는 프로젝트를 선도하고 있다.

AI 팩토리 시대의 경쟁력은 칩 하나를 잘 만드는 것만으로 결정되지 않는다. 반도체와 데이터센터 분야에서 세계적 역량을 갖춘 한국 산업계에 묻고 싶다. 칩을 설계하는 역량만큼 그 칩이 작동할 AI 팩토리 전체를 시뮬레이션하는 역량을 갖추고 있는가. 칩의 밀리볼트에서 팩토리의 기가와트까지, 그 여정을 시뮬레이션하는 기업이 AI 생산 시대의 주역이 될 것이다.

시높시스 애플리케이션 엔지니어링 부문 부사장 패드메쉬 맨들로이