[김경환 변호사의 IT법]<11>원본데이터의 AI 학습목적 활용

글자 작게 글자 크게 인쇄하기
[김경환 변호사의 IT법]&lt;11&gt;원본데이터의 AI 학습목적 활용

개인정보보호위원회는 지난 4월 28일 이루다 서비스를 제공하는 인공지능(AI) 기업 스캐터랩에 대해 1억330만원의 과징금 등을 부과했다. 특히 관심을 끈 처분 사유는 스캐터랩이 자사의 애플리케이션(앱) 서비스 '텍스트앳'과 '연애의 과학'에서 수집한 카카오톡 대화를 지난해 2월부터 올해 1월까지 챗봇 서비스 '이루다'의 AI 개발과 운영에 이용한 점이었다.

첫째 스캐터랩은 '이루다' AI 모델 개발을 위한 알고리즘 학습 과정에서 카카오톡 대화에 포함된 이름, 휴대전화번호, 주소 등 개인정보를 삭제하거나 암호화하는 등의 조치를 전혀 하지 않고 약 60만명에 이르는 이용자의 카카오톡 대화 문장 94억여건을 이용했다. 둘째 '이루다' 서비스 운영 과정에서는 20대 여성의 카카오톡 대화 문장 약 1억건을 응답 데이터베이스(DB)로 구축하고 '이루다'가 이 가운데 한 문장을 선택해 발화할 수 있도록 운영했다.

첫째는 서비스 개발 과정, 둘째는 서비스 운영 과정에서 각각 발생한 처분 사유이다. 이 가운데 서비스 개발 과정에서 AI 학습데이터는 어떻게 처리돼야 하는지에 대해 논해 보기로 한다.

AI 학습데이터로 사용될 수 있는 데이터는 비식별화 처리 정도에 따라 원본데이터, 가명데이터, 익명데이터가 있다. 이 가운데 익명데이터는 법적으로 이슈가 없을 뿐만 아니라 AI 학습데이터로서의 가치도 없다.

가명데이터의 경우 개인정보를 가명으로 처리하면 정보 주체의 동의 없이 과학적 연구를 위해 가명정보를 처리할 수 있다.(개인정보보호법 제28조의2) 과학적 연구란 기술 개발과 실증, 기초연구, 응용연구 및 민간투자 연구 등을 포함하기 때문에 AI 학습도 과학적 연구에 포함된다고 할 수 있다. 이에 따라 개인정보보호법 제28조의 2에 의거해 개인정보를 가명 처리하면 정보 주체의 동의가 없어도 AI 학습데이터로 활용할 수 있다.

다만 가명 처리를 하는 개인정보는 적법하게 수집해야 하고, 정형데이터뿐만 아니라 비정형데이터(대화, 영상, SNS, 활동기록 등) 역시도 가명 처리 기준에 부합하게 처리해야 한다. 이루다 사건에서 스캐터랩이 AI 학습데이터로 활용한 카톡 대화가 대표적인 비정형데이터이다. 비정형데이터 역시 가명 처리 기준, 즉 개인정보가 아닌 상태 또는 원래 상태로 복원하기 위한 추가 정보 사용이나 결합 없이는 특정 개인을 알아볼 수 없는 상태에 부합하게 처리돼야 한다.

문제는 어느 정도까지 가명 처리를 해야 제대로 된 가명데이터로 볼 수 있는지에 대한 획일적인 기준이 있지 않기 때문에 사안별로 제반 사정 등을 고려해서 판단할 수밖에 없다는 점이다. 이러한 불안정한 기준 때문에 AI 기업들은 AI 학습데이터 확보에 어려움을 겪고 있다. 이와 함께 가명데이터는 가명 처리를 하는 데도 많은 시간과 비용이 투여되지만 원본데이터에 비해 오류율이 높아 안정적인 서비스 도입이나 경쟁력 확보에 장애가 되고 있다. 예컨대 자율주행자동차의 경우 국민 안전에 악영향을 미치고 있다.

이에 따라 원본데이터를 AI 학습데이터로 활용하면 가장 좋겠지만 이를 위해서는 절차적으로 정보 주체의 동의가 선행돼야 한다. 자율주행자동차의 영상정보와 같이 정보 주체의 동의를 받는 과정이 없는 경우는 원본데이터의 AI 학습 목적 활용은 구조적으로 불가능하다.

이 같은 문제점을 고려해 개인정보보호의 취지가 침해되지 않는 범위에서 원본데이터를 AI 학습 목적으로 활용할 수 있는 절충 방안을 정책적으로 연구해야 할 것으로 보인다. 그 효과가 제한적인 공용 원본데이터 확보에 그치지 않고 기업 내부 또는 주요 거점 상의 공용 장소에 물리적ㆍ논리적으로 분리된 공간, 즉 안전구역(safety zone)을 엄격한 안전성 심사를 통해 인증하고 이 안전구역 내에서는 원본데이터의 AI 학습 목적 활용을 허용해 주면서 동시에 무거운 관리상의 책임을 지우는 방안을 도입함이 타당해 보인다.

이러한 시도는 비정형데이터 가명 처리의 어려움을 극복하고 경쟁력 확보, 나아가 국민 안전까지 도모할 수 있다. 게다가 원본데이터 활용 과정에서 발생하는 외국기업과의 역차별 문제도 근본적으로 해결할 수 있을 것이라 믿는다.

김경환 법무법인 민후 대표변호사 oalmephaga@minwho.kr