지난달 9일 '데이터 3법'이 국회 본회의를 통과했다. 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률 개정안이다. 특정 개인을 식별할 수 없도록 처리를 마친 가명 정보 개념을 도입해 본인 동의 없이도 통계 작성, 연구 등 목적으로 활용할 수 있다는 게 골자다. 데이터 산업 활성화를 위해 고무되는 일이며, '미래의 쌀'이라고 불리는 데이터를 가공 처리해 새로운 서비스를 창출하는 데이터 산업의 국제 경쟁력 향상을 위해서도 매우 다행한 일이다.
다른 한편으로는 개인 프라이버시 침해를 우려하는 목소리가 크다. 가명 처리한 데이터는 특정 개인 식별이 어렵고 불법으로 개인 식별화를 시도하는 경우에 대한 처벌 규정이 있다. 그러나 빅데이터 산업 속성상 인공지능(AI) 기술을 토대로 한 사용자 프로파일링 기술이 매우 빠르게 발전할 것으로 예상된다. 향후 데이터 산업 발전과 프라이버시 보호라는 두 가지 상충하는 조건을 최대로 만족시키기 위한 세부 시행 지침이 조속히 마련돼야 한다. 이를 위해 다음과 같은 몇 가지 방안을 제안한다.
우수한 가명정보 변환 기술을 개발해 보급해야 한다. 그동안 개인정보를 가명정보로 변환하기 위한 암호화나 단순 변환 기술은 많이 개발됐다. 그러나 성능과 사용자 편의성, 비식별화 난이도 등을 모두 만족시키는 기술은 아직 없다. 금융권이나 산업계 현장 요구 사항을 정확히 반영할 수 있는 안전하고 사용이 편리한 가명정보 변환 기술 개발을 서둘러야 한다.
원데이터 특징을 나타내는 메타 정보를 추출, 제공하는 방안을 고려해야 한다. AI 기반 분석 과정을 살펴보면 원데이터로부터 특징 정보를 추출해 머신러닝이나 딥러닝 입력으로 사용한다. 사실상 분석에 필요한 데이터는 원데이터가 아닌 가공된 피처 정보인 경우가 대부분이다. 문제는 어떤 피처 정보가 필요한 지 여부가 분석 도메인이나 분석 방법에 따라 달라지기 때문에 분석 방법이 정형화한 경우에만 사용이 가능하다는 것이다. 실제 데이터 산업에서는 이미 알려진 분석 방법을 사용하는 경우가 많다. 이런 경우 원데이터를 제공하는 대신 가공된 메타정보를 제공하는 방안을 고려할 수 있다. 특정 개인을 재식별화하는 위험성을 현저히 감소시킬 수 있다.
중앙집중화된 데이터 분석 방식 대신 분산 분석 기술을 고려해야 한다. AI를 이용한 데이터 분석에서는 이 같은 개념을 도입한 페더레이티드 러닝 기술에 주목하고 있다. 이는 데이터를 중앙으로 집중시켜서 분석하는 대신 각 로컬 기관이 분석 모델을 만든 후 모델 파라미터만 중앙으로 보내는 방식이다. 중앙에서 일반화한 분석 모델을 만들어 다시 각 로컬 기관으로 보내 준다. 데이터 중앙 집중화 없이 분석을 가능하게 하는 기술이다. 이 같은 개념을 도입하면 모든 데이터를 한 곳으로 집중시키지 않더라도 빅데이터 분석이 가능하게 되기 때문에 데이터 부족 문제나 프라이버시 문제를 해결하는 방안이 될 수 있다.
이외에도 데이터 경제 시대를 위한 개인정보보호 강화 방안은 다양하게 강구돼야 한다. 앞으로 만들어질 '데이터 3법' 개정안 시행 세칙에서는 바로 사용이 가능한 단기 방법이 제시돼야 함은 물론 중장기 방안이 함께 제시돼야 할 것이다.
정수환 한국정보보호학회 회장 souhwanj@ssu.ac.kr