
AI 시대, 데이터의 신뢰성과 품질 확보가 기술 발전의 핵심 과제로 떠오르고 있다. 20일 서울 코엑스에서 열린 'SOTEC 2025'에서 손진호 미소정보기술 CTO는 'AI 데이터 프로파일링과 품질 확보 전략 및 사례'를 주제로 발표를 진행했다.
손 CTO는 “빅데이터와 클라우드 활성화로 생성된 방대한 양의 데이터가 다양한 시스템에 분산돼 있다”며 “이를 효과적으로 관리하고 신뢰할 수 있는 데이터를 제공하기 위한 데이터 프로파일링이 필수적”이라고 강조했다. 그는 AI 학습의 정확성과 신뢰성을 높이기 위해 데이터의 일관된 관리와 품질 진단이 중요하다고 설명했다.
손 CTO는 데이터 관리의 핵심 전략으로 데이터 패브릭(Data Fabric)과 데이터 메쉬(Data Mesh)를 제시했다. 이 기술들은 다양한 데이터 소스와 애플리케이션 간의 통합을 지원하며, 조직 내 모든 사용자가 필요한 데이터를 쉽게 활용할 수 있도록 한다. 그는 “데이터 패브릭은 모든 데이터를 하나의 네트워크로 묶어 통합적 관리가 가능하게 한다”고 설명했다.
또한, 데이터의 정확성, 유효성, 정합성을 유지하기 위한 품질 진단 프로세스를 소개했다. 이 프로세스는 데이터 표준화, 클렌징 방안 도출, 진단 데이터 수집, 검증 환경 구성, 프로파일링, 규칙 설정 및 진단 실행 단계를 거쳐 이루어진다. 손 CTO는 “정확한 품질 진단 없이는 AI 학습 데이터의 신뢰성을 확보할 수 없다”고 강조했다.
특히, 의료 데이터와 같은 민감한 정보를 예로 들며, 데이터 품질 진단을 통해 오류를 최소화하고, 학습 데이터의 일관성을 높이는 사례를 발표했다. 그는 “구문 오류와 통계적 편향성을 잡아내지 못하면 AI 모델의 정확도가 떨어질 수밖에 없다”고 설명했다.
손 CTO는 마지막으로 “AI 데이터의 품질 확보는 신뢰할 수 있는 모델 개발의 시작”이라며, “지속적인 데이터 관리와 프로파일링 기술의 고도화가 앞으로 AI 산업의 경쟁력을 결정할 것”이라고 말했다.
김정희 기자 jhakim@etnews.com