“의료·금융, 전자상거래 등에 효과적” KAIST, 기존 한계 극복한 '연합학습 AI' 개발

합성 데이터를 활용한 지역 과적합 문제 해결 개요
합성 데이터를 활용한 지역 과적합 문제 해결 개요

한국과학기술원(KAIST·총장 이광형) 박찬영 산업 및 시스템공학과 교수팀이 공동 인공지능(AI) 학습 방식인 '연합학습(Federated Learning)'의 성능 저하 문제를 해결할 방법을 제시했다고 15일 밝혔다.

연합학습은 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다. 다만 이렇게 완성된 공동 AI 모델을 현장에 맞춰 최적화(파인 튜닝)하는 과정에서 문제가 발생한다. 기존 폭넓은 지식이 희석되며, AI가 특정 기관 데이터 특성에만 과도하게 적응하는'지역 과적합(Local Overfitting)'문제가 생긴다.

예를 들어 여러 은행이 함께 '공동 대출 심사 AI'를 구축한 뒤, 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면 해당 은행 AI는 대기업 심사에는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 떨어진다.

이에 연구팀은 '합성 데이터(Synthetic Data)' 방식을 도입했다. 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상 데이터를 생성하고, 이를 파인튜닝 과정에 적용한 것이다.

이 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적이고, 소셜미디어나 전자상거래처럼 새로운 사용자·상품이 지속 추가되는 환경에서도 안정적이다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변해도 AI가 혼란스러워하지 않고 안정적으로 성능을 유지한다.

박찬영 교수는 “이번 연구는 데이터 프라이버시를 지키면서, 각 기관 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다”며, “의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것”이라고 말했다.

이번 연구는 김성원 데이터사이언스대학원 학생이 제1 저자, 박찬영 교수가 교신저자로 참여했으며, 지난 4월 '국제표현학습학회(ICLR) 2025'에서 상위 1.8% 우수 논문만 꼽는 구두 발표 대상으로 채택됐다.

김영준 기자 kyj85@etnews.com