
카카오가 인공지능(AI) 모델의 펑션콜(Function Calling·함수호출)을 평가하는 데이터셋을 업그레이드했다.
카카오는 지난해 9월 공개한 AI 언어모델의 함수호출 성능 평가 데이터셋 '펑션챗 벤치(FunctionChat-Bench)'의 업데이트 버전을 깃허브에 오픈소스로 30일 공개했다.
함수호출은 AI 언어모델이 자체적으로 수행할 수 없는 동작을 지시하거나 사전에 학습하지 않은 실시간 정보를 받도록 언어모델과 응용프로그래밍인터페이스(API) 등 외부 도구를 연결하는 기술을 뜻한다. 언어모델을 기반으로 하는 서비스 구현에 있어 필수 기술로 꼽힌다. 언어모델이 가진 한계를 해결해 새 기능으로 확장할 수 있다.
카카오는 지난해 펑션콜 기술의 고도화와 생태계 기여를 위해 국내 정보기술(IT) 기업 최초로 한국어 대화 환경에서 성능을 다면적으로 평가할 수 있는 펑션챗 벤치를 구축하고 이를 오픈소스로 공개했다. 업데이트한 2.0 버전은 보다 정밀한 측정을 위해 최신 버전의 평가용 거대언어모델(LLM)로 교체했다. 데이터 및 루브릭(평가 기준) 보완, 새 평가 데이터 문항 추가 등을 반영했다.
카카오는 펑션챗 벤치의 자동 평가 방식을 최신 기술 동향에 맞춰 업그레이드했다. 기존 버전에서 평가자 모델로 사용한 'GPT-4-0125-preview' 모델에서 'GPT-4.1-2025-04-14'로 변경 적용해 평가의 정밀도를 한층 높였다. 이와 함께 평가 데이터 및 루브릭을 보다 정교하게 보완하는 작업으로 사람이 수행한 정성 평가 결과와 오차를 최소화하며 높은 평가 일치율을 달성했다.
기존 버전의 평가 데이터셋에 새로운 평가 데이터셋인 '콜 디시전(Call Decision)'을 추가하기도 했다. 이를 통해 펑션콜이 필요한 대화 상황에서 '사용할 수 없는 도구와 관련된 요청을 올바르게 거절하는 능력'과 '누락된 정보를 파악해 사용자에게 질문하는 능력'을 중점적으로 평가할 수 있게 됐다. 이 밖에도 대량의 요청을 한 번에 묶어 효율적으로 처리하는 오픈AI의 'Batch' 방식을 도입해 평가 속도를 대폭 높였다. 평가 결과 방식에서의 사용 편의성도 개선했다.
카카오는 언어 모델 자체의 고도화 뿐 아니라 AI 에이전트 구현에 필수적인 펑션콜 성능을 정밀히 측정할 수 있는 신뢰도 높은 평가 도구 개발에도 집중할 계획이다.
카카오 관계자는 “이번 데이터셋은 현재 자체 개발 AI 모델의 성능 평가에도 활용되고 있다”면서 “국내 AI 기술 생태계의 다면적인 발전을 위해 AI 모델과 평가 데이터셋을 고도화하겠다”고 밝혔다.
변상근 기자 sgbyun@etnews.com