[보안칼럼]마이데이터와 보안

업계와 학계는 ICT 분야에서 빅데이터, 인공지능(AI)을 끊임없이 연구하고 실생활에 적용될 수 있는 서비스를 개발해 왔지만 아직도 “쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)”를 이야기한다. 결국 획기적 서비스를 위해서는 정보량이 많은 고품질 실시간 개인 데이터 확보가 관건이라는 결론에 도달하게 된다.

[보안칼럼]마이데이터와 보안

개인에 대한 많은 정보라는 것은 결국 결합데이터를 의미한다. 마이데이터 업계는 마이데이터 사업자가 개인 동의를 얻어 개인 데이터를 결합해 비즈니스는 물론 개인에 대한 인사이트를 얻기 위해 이 분야에 뛰어들고 있는 것으로 보인다.

하지만 이러한 사업자 중심 마이데이터 서비스는 필연적으로 보안과 프라이버시 측면에서 문제의 소지가 매우 많다. 데이터가 한 곳에 집중되면 보안 리스크가 높아지고 개인 데이터가 결합되면 프로파일링 수준이 높아져서 프라이버시 리스크 또한 커진다는 것은 굳이 설명할 필요가 없다.

사실 집중된 데이터, 결합된 개인정보에 대한 리스크는 단순히 전자금융거래법령, 신용정보법령 등에 있는 망분리 관련 규정을 준수하는 것만으로는 완전히 해소할 수 없다.

단순 금융 데이터가 아니라 비금융 데이터가 함께 있고, 그것도 결합된 데이터라면 해킹 매력도가 높아질 수밖에 없다. 달걀을 한 바구니에 담지 말라는 투자 분야의 격언이 국내 마이데이터 업계에도 적용될 수 있는 셈이니 이 또한 아이러니 아닐까 싶다.

마이데이터의 프라이버시 리스크를 얘기할 때 항상 언급되는 부분은 안전한 가명데이터 활용에 대한 것이다. 그러나 식별이 가능해지는 연결고리가 남아 있는 가명 데이터는 식별 데이터와 익명 데이터 간 절충적인 중간 지대를 제공한다.

데이터 결합과 같은 요구 사항을 일면 충족시킬 수 있지만 결합 자체에 대한 동의를 별도로 사용자에게 받지 않는 한 개인 식별이 불가능한 통계적 용도 이상으로 활용되기 어렵다.

적잖은 마이데이터 사업자가 이 부분을 놓치고 있는 것으로 보인다. 현재 구조에서는 프라이버시 보호도 데이터 활용도 어렵다.

최근 구글이 브라우저 쿠키를 활용하는 대신 '프라이버시 샌드박스'라고 불리는 프로젝트에서 FLoC(Federated Learning of Cohorts) API를 소개했다.

동일 관심사 그룹 기반으로 타깃 마케팅을 수행하되 개인 식별자는 숨기는 형태의 테스트를 시작했다. 애플도 지난해 ITP(Intelligent Tracking Prevention)를 이용해 서드파티 쿠키를 차단한 데 이어 검색·방문기록 수집 시 이용자 승인을 받도록 변경할 것으로 알려졌다.

이처럼 글로벌 기업의 개인정보 보호를 위한 움직임과 현재의 서버 기반 마이데이터 서비스는 정반대 방향을 지향하는 것으로 보인다.

개인정보 이슈로 인해 머신러닝 분야에서는 연합학습(Federated Learning) 모델, 딥러닝도 온디바이스(On-Device) AI가 주목받고 있는데 개인 데이터를 마이데이터 사업자 서버에 집중시키는 것은 보안과 프라이버시 보호 측면에서 바람직하지 않고 기술적인 측면에서도 글로벌 트렌드와 맞지 않다.

사용자 프라이버시를 우선 고려하되 기업의 활용성을 높일 수 있는 혁신적 접근이 필요하다. 사용자의 모바일 단말에서 개인이 직접 자신의 데이터를 결합·분석·처리하는 형태 같은 새로운 마이데이터 서비스 모델을 적극 고려해야 할 시점이다.

이재영 에스앤피랩 대표 michael.lee@snplab.io