노타, 'AI PC' GPU·NPU 동시 활용 최적화 기술 구현

노타 이기종 컴퓨팅 AI PC 분리형 추론 비교. ⓒ노타
노타 이기종 컴퓨팅 AI PC 분리형 추론 비교. ⓒ노타

노타가 인공지능(AI) PC 환경에서 그래픽처리장치(GPU)와 신경망처리장치(NPU)를 함께 활용하는 이기종 컴퓨팅 기반 거대언어모델(LLM) 추론 최적화 기술을 구현했다.

이기종 컴퓨팅은 서로 다른 장점을 가진 프로세서를 함께 활용하는 방식이다. 하나의 프로세서에 모든 일을 맡기는 대신 중앙처리장치(CPU)·GPU·NPU처럼 역할이 다른 장치가 각자 잘하는 일을 나눠 맡도록 설계하는 게 핵심이다.

AI PC 실제 성능은 고성능 프로세서 하나의 사양이 아닌 디바이스 내 여러 연산 장치를 시스템 전체 관점에서 얼마나 효율적으로 조합하느냐에 따라 달라진다.

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로 나눠 분석하고, 각 단계에 적합한 연산 장치를 배치하는 분리형 추론 방식을 적용했다. 입력 처리 연산은 GPU에서, 답변 생성 연산은 NPU에서 실행되는 형태다.

성능 평가 결과, 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였다. 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축했다. AI 모델 작업 특성을 분석해 각 연산을 가장 적합한 장치에 배치했다는 게 강점이다.

노타 채명수 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로 충분하지 않고 GPU·NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”며 “노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대 온디바이스 AI 실행 효율을 높여 나가겠다”고 말했다.

박종진 기자 truth@etnews.com