
천문학적인 자금을 들여 AI 모델을 학습시키던 시대가 서서히 저물고 있다. 이제 AI 산업의 주도권은 모델을 만드는 단계에서 만들어진 모델을 실제 서비스에 적용해 수익을 내는 단계, 즉 '추론(Inference)' 중심의 경제로 빠르게 이동하고 있다. 이 거대한 전환의 한복판에는 엔비디아의 GPU 중심 질서에 균열을 내며 등장한 LPU(Language Processing Unit, 언어처리장치)가 있다.
LPU는 말 그대로 대규모 언어모델(LLM)의 추론에 특화된 목적형 반도체다. 구글 TPU 설계자 출신인 조나단 로스가 설립한 그록(Groq)이 개발했다.
그런데 이 혁신성을 일찍이 간파한 엔비디아가 약 200억 달러(약 30조 원)를 투입해 그록의 기술과 인력을 전격 인수(Acquihire)했다. 이 과정에서 미국 의회는 최근 반독점 우려를 제기하며 조사에 착수했다.
그렇다면 LPU는 GPU와 무엇이 다를까.
기존 GPU는 수천 개의 코어를 활용해 여러 연산을 동시에 처리하는 병렬 연산에 매우 강하다. 하지만 챗GPT처럼 단어를 하나씩 순서대로 생성해야 하는 자가회귀(Autoregressive) 방식의 언어모델 추론에서는 오히려 비효율이 생긴다. 이유는 단순하다. 칩 외부의 메모리(HBM 등)에서 필요한 데이터를 끊임없이 불러와야 하기 때문이다. 이때 발생하는 병목이 바로 이른바 '메모리 벽(Memory Wall)'이다.
반면 LPU는 칩 내부에 대규모 초고속 메모리(SRAM)를 직접 탑재해 외부 메모리와 데이터를 주고받는 과정에서 생기는 병목현상을 제거했다. 여기에 하드웨어가 아닌 소프트웨어, 즉 컴파일러가 데이터 흐름을 미리 설계하는 '결정론적(Deterministic) 아키텍처'를 채택해 예측 불가능한 지연도 없앴다.
그 결과 LPU는 인간의 독서 속도보다 빠른 수준의 토큰 생성을 구현했고, 경우에 따라서는 GPU보다 최대 10배 이상 빠른 추론 속도를 보여준다. 이는 단순한 성능 개선이 아니라 AI 서비스의 사용 경험 자체를 바꿔놓을 수 있는 혁신이다.
이 때문에 추론 시장의 주도권을 잡기 위한 글로벌 경쟁은 이미 뜨겁게 달아오르고 있다. 구글은 자사 서비스의 추론 비용을 낮추기 위해 최신 TPU v6e(Trillium)를 내놓았고, 아마존과 마이크로소프트 역시 맞춤형 추론 칩 개발에 사활을 걸고 있다.
여기서 주목해야 할 또 하나의 변화는 '추론 반도체 + HBM'의 결합이 필수 공식이 되고 있다는 점이다. 과거에는 HBM이 학습용 GPU의 전유물처럼 여겨졌지만, 이제는 국산 NPU(신경망처리장치)를 포함한 모든 추론용 반도체에도 HBM3E나 HBM4 탑재가 생존 조건이 되고 있다.
이 변화는 AI 비즈니스의 승패 기준을 '누가 더 큰 모델을 만드느냐'에서 '누가 더 빠르고 더 저렴하게 서비스를 제공하느냐'로 바꾸고 있다. 젠슨 황 엔비디아 CEO가 “추론은 곧 매출”이라고 말한 것도 같은 맥락이다. 결국 토큰 처리 속도와 비용이 기업의 수익률(ROI)을 좌우하는 시대, 다시 말해 '추론 경제학'의 시대가 본격적으로 열리고 있는 것이다.
앞으로 AI 비즈니스의 승부는 스마트폰, 자동차, 공장 설비 자체에서 연산이 이루어지는 온디바이스(On-device) AI와 엣지(Edge) AI 경쟁에서 판가름 난다. 서버를 거치지 않고 즉각적인 추론이 이뤄져야 한다. LPU 같은 저전력 추론 반도체가 HBM과 결합해 기기 내부에서 실시간 데이터를 처리하게 되면, 우리는 인터넷 연결 없이도 정확한 통역을 수행하는 스마트폰, 운전자의 시선을 실시간 분석해 사고를 미리 막아주는 자동차를 일상에서 만나게 될 것이다.
실시간 추론이 가능해지면 AI의 역할은 더욱 커진다. 사용자가 “오늘 저녁 예약해줘”라고 말하면, AI는 여러 앱을 오가며 스스로 예약하고 결제까지 마치는 에이전트 역할을 하게 된다. 공장의 협동 로봇, 즉 피지컬 AI(Physical AI)는 센서를 통해 들어오는 방대한 데이터를 즉시 분석해 거의 오차 없이 부품을 조립할 수 있다. 이 영역에서는 지연 시간이 곧 사고이고, 곧 비즈니스 실패다.
따라서 기업은 추론 반도체를 내재화하거나 최적의 추론 솔루션을 탑재해, '생각의 속도'로 반응하는 제품 생태계를 구축해야 한다.
결국 '추론 경제 시대'를 지금부터 준비하는 기업만이, 다가오는 AI 뉴비즈 시대의 최종 승자가 될 것이다.
최은수 인텔리빅스 대표·aSSIST 석학교수·CES2025·2026 혁신상 심사위원
김원배 기자 adolfkim@etnews.com