AI 시대, 비정형 데이터 전처리 부상...RAG 기술 확산 본격화

인공지능(AI) 기술이 산업 전반으로 확산되면서 기업 경쟁력을 좌우할 핵심 과제로 비정형 데이터 전처리가 부상하고 있다. 생성형 AI의 '환각(hallucination)' 문제를 줄이고 신뢰성 있는 답변을 확보하기 위한 핵심 해법으로 검색증강생성(RAG: Retrieval-Augmented Generation) 기술이 주목받으면서, 이를 뒷받침할 데이터 전처리 솔루션 시장도 빠르게 성장하고 있다.

한국데이터산업진흥원에 따르면 국내 데이터 산업 시장 규모는 2024년 30조원을 넘어설 전망이다. 이 가운데 데이터 처리·관리 솔루션 부문은 연평균 15.7% 성장률을 기록, 전체 산업 성장률(8.8%)을 크게 상회했다. 단순 관리가 아닌 비정형 데이터에서 가치를 추출하려는 기업 수요가 늘고 있는 결과다.

비정형 데이터는 계약서, 보고서, 스캔본, 이미지 등 기업 내 주요 문서를 포함한다. 이러한 문서가 구조화되지 않은 채 학습에 활용될 경우, 생성형 AI는 정확하지 않은 정보를 내놓는 환각 증상을 일으킬 수 있다. 이에 따라 문서 구조를 분석·정제해 AI가 이해할 수 있는 고품질 데이터로 변환하는 전처리 과정의 중요성이 커지고 있다.

에스에이티정보 'R2-TA 솔루션'
에스에이티정보 'R2-TA 솔루션'

국내 기업들도 잇따라 관련 솔루션을 내놓고 있다. 업스테이지는 최신 OCR 기술 기반 도큐먼트 파서를 출시해 문서 구조를 보존한 HTML 변환으로 LLM 학습 품질을 높였다. 한글과컴퓨터는 PDF, HWP 등 다양한 포맷을 AI 학습에 적합하게 변환하는 '한컴 데이터 로더'로 B2B 시장을 공략한다. 에스에이티정보는 R2-TA 솔루션을 통해 장·절·항 구조와 메타데이터를 추출하고, 테이블·이미지를 별도 분리·정제한다. 특히 병합된 셀이나 중첩 표 등 복잡한 구조까지 정형화해 논문·매뉴얼 등 난도 높은 문서도 AI 학습에 활용할 수 있도록 지원한다.

업계는 데이터 전처리 솔루션을 단순 효율화 도구가 아닌, AI 시대 기업 핵심 인프라로 보고 있다. 데이터 품질과 신뢰성이 확보돼야만 AI가 실제 비즈니스 경쟁력을 강화하는 도구로 자리잡을 수 있기 때문이다.

에스에이티정보 오세용 대표는 “AI를 기업 경쟁력으로 삼기 위해서는 개인정보를 비식별 처리한 안전한 데이터 자산화가 선행돼야 한다”며 “전처리 솔루션을 통해 고객이 안심하고 AI를 활용할 수 있도록 지원하겠다”고 말했다.

김정희 기자 jhakim@etnews.com