에이아이웍스, 국내 최초 '한국형 스키마 기반 대화 데이터셋(KoSGD)' 허깅페이스 공개… “한국어 TOD 기술 표준 제시”

- 구글 리서치 SGD 데이터셋 한국어 최적화… 21개 도메인, 8만 5천 턴 규모 고품질데이터 무료 배포
- 자체 sLLM 모델 'NLU-14B' 검증 결과, 글로벌 빅테크 모델 대비 '의도 분류' 에서 좋은 성능 입증

에이아이웍스, 국내 최초 '한국형 스키마 기반 대화 데이터셋(KoSGD)' 허깅페이스 공개… “한국어 TOD 기술 표준 제시”

인공지능(AI) 데이터, 모델 및 솔루션 기업 (주)에이아이웍스(AIWORKX, 대표 윤석원)가 구글 리서치의 '스키마 기반 대화(Schema-Guided Dialogue, SGD)' 데이터셋을 한국어 환경에 맞춰 재구축한 'KoSGD(Korean Schema-Guided Dialogue ToD Dataset)'를 2025년 12월 31일 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에 국내 최초로 공개했다고 밝혔다.

이번 공개는 국내 AI 연구자들이 비즈니스 로직 처리에 특화된 '목적 지향 대화(Task-Oriented Dialogue, ToD)' 시스템을 구축하는 데 있어 중요한 이정표가 될 전망이다.

구글이 설계하고 구축한 데이터셋의 한국어 최적화… 21개 도메인, 8만 5천 턴 규모 고품질 데이터
에이아이웍스, 국내 최초 '한국형 스키마 기반 대화 데이터셋(KoSGD)' 허깅페이스 공개… “한국어 TOD 기술 표준 제시”

KoSGD는 호텔, 항공, 날씨, 은행 등 21개 이상의 다양한 서비스 도메인을 포괄하며, 총 84,594턴(Turn) 이상의 대규모 대화로 구성되어 있다.

기존의 고정된 도메인만을 위한 데이터셋과 달리 '스키마(Schema)' 기반 방식을 채택하여, 모델이 학습하지 않은 새로운 서비스나 도메인에 대해서도 추가 학습 없이 대응하는 '제로샷(Zero-shot)' 성능을 확보할 수 있도록 설계된 것이 가장 큰 특징이다.

특히 에이아이웍스는 단순 기계 번역이 아닌 전문 인력을 투입해 100% 전수 휴먼 검수를 진행했다. 이를 통해 한국어 특유의 자연스러운 구어체 표현을 반영하는 한편, 원본 구글 데이터셋에 존재하던 어노테이션(주석) 오류까지 수정하여 데이터의 완결성을 한층 높였다.

자체 sLLM 모델, 글로벌 빅테크 모델 대비 좋은 성능 입증

에이아이웍스는 데이터셋 공개와 함께 자사의 로컬 소형언어모델(sLLM)인 'AIWORKX NLU-14B'의 벤치마크 결과도 발표했다. KoSGD를 활용한 성능 평가에서 자사 모델은 핵심 ToD 지표인 △의도 분류(Intent Classification) 90.9% △액션 분류(Action Classification) 97.7%를 기록했다.

이는 메타(Meta)의 Llama-3.1이나 마이크로소프트의 Phi-4 등 글로벌 오픈소스 모델을 상회하는 수치이며, 고비용의 상용 클라우드 API 모델과 비교해도 대등하거나 앞서는 결과다. 에이아이웍스 이재민 팀장은 “개인 PC에서도 구동 가능한 14B 규모의 로컬 모델로도 정교한 비즈니스 로직 처리가 가능함을 증명했다”며, “보안이 중요한 금융권 등 엔터프라이즈 환경에서 강력한 경쟁력이 될 것”이라고 설명했다.

기술적 난제 해결에 초점을 맞춘 핵심 차별점

에이아이웍스가 공개한 KoSGD 데이터셋은 기술적 완성도와 실용성 측면에서 세 가지 핵심 차별점을 갖추고 있다.

△한국어 ToD 벤치마크 제시: 모델이 학습 과정에서 접하지 못한 새로운 서비스나 도메인에 대한 한국어 평가 벤치마크를 제시한다.

△원본 데이터 셋의 개체 간 관련성 강화: 원본 데이터의 모호한 개체 (Canonical Value, Value 등)에 대한 관계성을 명확하게 제안하고 수정하여 신뢰성을 확보함.

△접근성 및 개방성 강화: 허깅페이스 배포를 통해 국내외 연구자들이 별도의 절차 없이 즉시 연구와 모델 개발에 활용할 수 있도록 개방형 라이선스로 제공한다.

에이아이웍스는 이번 KoSGD 데이터셋을 CC BY-SA 4.0 라이선스에 따라 무료로 공개하여 오픈소스 생태계 활성화에 기여할 방침이다. 회사는 이를 바탕으로 2026년까지 금융,이커머스 및 테스트 등 다양한 도메인에 ToD기반의 AI 에이전트 솔루션과 AICC 기술 고도화를 본격적으로 출시할 계획이다.

에이아이웍스 윤석원 대표는 “단순한 질의응답을 넘어 실제 업무를 수행하는 에이전트(Agent) 기술이 AI 시장의 핵심이 될 것”이라며, “이번 데이터셋 공개를 통해 에이아이웍스의 기술적 신뢰도를 높이고 다가올 에이전트 시대를 선도하겠다”고 포부를 밝혔다.

임민지 기자 minzi56@etnews.com