
오케스트로는 인공지능(AI) 추론 운영 플랫폼 '콘체르토 AI(CONCERTO A.I.)'를 선보였다고 29일 밝혔다.
콘체르토 AI는 에이전트형 AI 확산으로 늘어나는 추론 트래픽에 대응하고 그래픽처리장치(GPU) 자원을 효율적으로 운영하도록 설계됐다. 대규모 추론 요청을 분산 처리하고 GPU·신경망처리장치(NPU) 등 가속기 자원을 작업 특성에 맞춰 배분해 보유 인프라의 활용 효율을 높인다.
핵심은 분산 서빙 기반의 추론 최적화다. 기존 단일 처리 방식은 질문을 분석하는 작업과 답변을 생성하는 작업을 같은 GPU 자원에서 함께 처리한다. 이 경우 요청이 몰리면 한 작업의 지연이 다른 작업까지 영향을 주면서 전체 응답 속도가 떨어질 수 있다. 콘체르토 AI는 이 두 작업을 나눠 처리하고 각 작업에 맞는 자원을 배치해 병목을 줄인다.
콘체르토 AI의 분산 서빙 방식은 토큰 출력 속도를 기존 방식 대비 2.2배 빠르게 유지한다. 이는 같은 하드웨어 환경에서도 자원 배분을 최적화하면 AI 서비스의 응답 지연을 줄이고 추론 처리 안정성을 높일 수 있음을 보여준다.
복잡한 LLMOps 환경을 쉽게 구성하고 관리할 수 있도록 운영 자동화 기능도 강화했다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 LLMOps에 필요한 기능을 하나의 플랫폼에서 제공한다.
콘체르토 AI는 운영 자동화를 넘어 국내 유일의 이기종 AI 가속기 지원 구조로 인프라 선택권을 넓힌다. 특정 GPU 생태계에 머무르지 않고 리벨리온, 퓨리오사AI 등 국산 NPU 환경까지 포괄한다.
오케스트로는 콘체르토 AI를 기반으로 기업과 기관의 AI 추론 병목과 LLMOps 관리 부담을 낮추고, 프라이빗 AI 환경에서 요구되는 성능과 보안을 확보하며 운영 효율을 높일 수 있도록 지원할 계획이다.
김범재 오케스트로 대표는 “에이전트형 AI 서비스가 늘어나면서 기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 말했다.
강성전 기자 castlekang@etnews.com