'텍스트·이미지 동시 추론' LG 엑사원 4.5 공개…구글·오픈AI 눌렀다

엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교
엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교

LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원(EXAONE) 4.5'를 공개했다.

엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM, Vision Language Model)이다. 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다.

'STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록해 미국 오픈AI GPT5-mini(73.5점), 앤트로픽 클로드 소넷(Claude Sonnet) 4.5(74.6점), 중국 알리바바 큐웬(Qwen)3 235B(77.0점)를 모두 앞섰다.

일반 시각 이해를 측정하는 3개 지표와, 이미지와 텍스트가 결합된 인포그래픽을 비롯해 전문 문헌 속 복합 정보를 읽어내는 문서 이해 및 추론 성능 평가 지표 5개를 포함한 13개 지표 평균 점수에서도 GPT5-mini와 클로드 소넷(Claude Sonnet) 4.5, 큐웬(Qwen)3-VL을 상회하는 성능을 보였다.

코딩 성능 대표 지표인 라이브코드벤치 v6에서는 81.4점으로 구글 최신 모델 젬마4(80.0점)를 넘었으며, 복잡한 차트를 분석하고 추론하는 능력을 평가하는 ChartQA Pro에서는 62.2점으로 동급 모델과의 비교에서 글로벌 경쟁력을 입증했다.

LG AI연구원 관계자는 “시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미”라고 설명했다.

'엑사원 4.5'는 330억개 파라미터 규모(33B)로 지난해 말 공개한 'K-엑사원' 약 7분의 1 크기이지만, 텍스트 이해 및 추론 영역에서 동등한 수준 성능을 달성했다. LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과다.


이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델”이라며, “이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 말했다.

엑사원
엑사원

김시소 기자 siso@etnews.com