'AI허브' 데이터 30종 업사이클링…추론 학습용 고도화

발행일 : 2026-05-07 14:58

과학기술정보통신부·한국지능정보사회진흥원이 운영하는 AI허브 홈페이지 메인화면.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 최신 생성형 인공지능(AI) 기술 환경에 맞게 데이터를 재가공하는 'AI 학습용 데이터 업사이클링' 사업을 시작한다.

국가 AI 개발 지원 플랫폼 'AI허브' 2022년까지 데이터가 대상이다. 과기정통부와 NIA는 사업에 앞서 AI허브 데이터 691종 대상 생성형 AI용 데이터로 확장 가능성과 활용도 등을 기준으로 전수 분석, 외부 전문가 검토를 거쳐 거대언어모델(LLM)·피지컬 AI 분야 업사이클링 추진 데이터 30종을 채택했다.

총 30억원을 투입해 기존 판별형 AI 중심 라벨링 데이터를 재가공, 추론 과정과 행동 정보를 포함하는 생성형 AI 학습용 데이터로 전환해 보다 복잡한 문제 해결이 가능한 기반을 지원한다. 학습 데이터를 신규 구축하는 것 대비 예산을 절감하고 정책 효과를 높일 수 있을 것으로 기대된다.

LLM 데이터 분야에서는 기존 텍스트 데이터 기반 질문·근거 검토·오류 검증·답변 확정에 이르는 추론 과정을 포함하도록 데이터를 재구성한다. 다양한 판단 경로와 자기 검증 과정을 학습할 수 있는 데이터로 확장한다.

동일한 문제에 복수 추론 경로를 구성하고 근거 기반 판단과 오류 수정 과정을 포함해 복잡한 문제 해결까지 가능한 추론형 AI 학습 기반을 마련할 계획이다.

또 피지컬 AI 분야에서는 기존 이미지·영상 데이터를 기반으로 시각 정보(V), 언어 명령(L), 행동과 제어(A)를 통합한 구조로 데이터를 고도화한다.

객체 인식 수준을 넘어 시간 흐름에 따른 상황 변화와 객체 간 상호작용을 이해, 목표 기반 행동을 생성할 수 있는 데이터로 확장할 계획이다. 연속적인 장면 정보와 객체 움직임 데이터를 활용하여 행동 경로와 작업 목표를 정의할 수 있는 형태로 재구성한다.

업사이클링을 마친 데이터는 기업·연구기관·스타트업 등에서 자유롭게 활용할 수 있게 AI허브에서 공개될 예정이다.

최동원 과기정통부 인공지능인프라정책관은 “업사이클링 사업을 통해 적은 비용으로 최신 생성형 AI 기술 환경에 맞는 AI 학습용 데이터를 확보할 수 있을 것”이라며 “이미 축적된 데이터 자산이 낭비되지 않도록 활용 가치를 끌어올려 나가겠다”고 말했다.

박종진 기자 truth@etnews.com