
크라우드웍스가 고난도 거대언어모델(LLM) 학습 데이터 구축사례를 공식 블로그를 통해 공개했다.
인포그래픽 텍스트 매칭 데이터셋, 텍스트 기반 SQL 파인튜닝 데이터셋, 전문 의학지식 질의응답 데이터셋 등으로 'AI 레디 데이터'에 대한 높은 전문성과 데이터 설계 역량이 요구되는 프로젝트다.
이들 프로젝트는 단순한 텍스트 수집·라벨링·가공을 넘어서 도메인 전문 지식, 복잡한 논리 구조 분석, 텍스트와 이미지 정보 간의 의미적 일치성 확보 등이 필요하다. 일반 데이터 대비 단가가 20~30% 이상 높고 숙련된 인력 확보와 체계적 프로젝트 운영과 검수 등 고도화된 품질 관리 역량이 필수다.
크라우드웍스는 데이터 일관성을 확보하기 위해 비전언어모델(VLM)을 활용해 이미지 설명문 생성을 자동화했다. 까다로운 검수 과정을 개선하고자 'JSON 시각화 툴'을 개발, 데이터 품질과 효율을 확보했다. 당초 4개월로 계획된 프로젝트를 3개월 만에 완료하며 기술력을 입증했다.
이밖에도 도메인 이해를 바탕으로 한 데이터 컨설팅 역량, 전문 데이터 인력을 신속하게 확보할 수 있는 전문가 인증 시스템, 검수 자동화 도구 등 복잡도 높은 LLM 데이터 구축에 안정적으로 대응할 수 있는 역량을 갖췄다.
김우승 크라우드웍스 대표는 “모델 성능은 평준화되고 데이터가 모델을 차별화하는 시대가 되고 있다”며 “크라우드웍스는 고난도 데이터 구축 역량을 바탕으로 산업별 AI 고도화를 지원하고 기업이 진정한 데이터 경쟁력을 확보할 수 있도록 앞장서겠다”고 말했다.
박종진 기자 truth@etnews.com