[전문가기고] 분류는 잘했는데, 합치면 기밀이 된다

안상현 육군 수도방위사령부 정보체계과장(중령)
안상현 육군 수도방위사령부 정보체계과장(중령)

지난 5월 1일 시행된 국가사이버보안기본지침 내 데이터 등급분류에 대해 우려의 목소리가 높다. 데이터 유출 등의 보안사고시 면피를 위해 데이터 등급을 기밀(C)으로만 설정할 거란 우려다. 민감(S)·공개(O)등급으로 분류한 데이터가 유출돼 결과적으로 사고가 발생하면, 분류한 개인이 책임을 떠안는 구조이기 때문이다.

안전한 선택은 늘 '일단 높게'가 된다. 정부는 어떤 데이터가 C·S·O에 해당하는지 분류 기준 마련에 착수했고, 학계에서는 데이터 단위 분류 등이 해법으로 거론되고 있다. 하지만 분류를 아무리 정교하게 다듬어도 풀리지 않는 문제가 있다.

한 부대에서 군수 물자 청구를 담당하는 A씨를 보자. A씨는 청구 데이터를 인공지능(AI) 학습용으로 입력하라는 지시를 받고 공개(O)등급으로 분류한 후 시스템에 입력했다. 그런데 부대별 청구량이 학습 서버에서 합쳐지자 어느 부대가 어떤 자원을 얼마나 운용하는지, 부대 활동 양상이 어떻게 변했는지가 고스란히 드러났다. 보안당국이 뒤늦게 조사에 나섰지만 A씨는 규정대로 분류했을 뿐이다. 결국 해당 AI 시스템은 사용중지된다. 청구서 하나는 공개 정보지만, 전군 데이터가 결합되는 순간 전력 운용을 보여주는 기밀이 된다.

이러한 집적의 문제는 전통 보안학에서 상식처럼 여겨온 개념이다. 장군 한 명의 이름은 공개 정보지만, 장군 전체 명부는 비밀이 된다. 부대 하나의 청구량은 공개여도, 전군 청구량을 합치면 전력 정보가 된다. 개별 정보에는 없던 의미가 결합을 통해 새로 생겨나고, 데이터가 모일수록 그동안 보이지 않던 패턴이 떠오른다. AI 학습은 본질적으로 데이터를 모으고 패턴을 추출하는 과정이다. AI 시대를 맞아, 전통 보안학에서 잠자고 있던 집적의 문제가 다시 떠오르는 이유다. 분류권자가 아무리 잘 분류해도, 자신의 파일이 다른 부대의 어떤 파일과 합쳐져 무엇이 될지를 예측하는 것은 불가능하다. 결국 안전을 위해 다시 '일단 높게 분류'로 회귀할 수밖에 없다. 분류 정교화만으로는 끊을 수 없는 회로다.

해법의 방향은 분류 한 점이 아닌 데이터 흐름 전체에 거버넌스를 까는 일이다. 데이터가 수집될 때, 다른 데이터와 결합될 때, 학습에 투입될 때, 단계마다 결합의 결과를 다시 평가하는 거버넌스다. 민간에서는 개인정보보호위원회가 지정하는 가명정보 결합전문기관 제도가 운영 중이고, 결합 전 단계에서 데이터를 익명화·정제하는 관리 체계도 자리잡고 있다.

그러나 정제된 데이터가 AI 학습 서버에서 합쳐져 새 의미가 만들어지는 그 순간의 위험은, 이런 결합 이전에 잡히지 않는다. 데이터 결합 시점에 결합 결과의 위험도를 다시 평가하는 메커니즘이 필요한 이유다. 앞서 사례에 대입해 보자. A씨는 규정대로 데이터를 O등급으로 분류해 입력한다. 학습 서버에서 다른 부대 데이터와 합쳐지는 순간, 거버넌스가 결합 결과를 다시 평가하고 위험이 감지되면 추가 통제가 작동한다. A씨의 분류는 그대로 인정되고, 시스템은 사용중지 위기를 피한다. 위험관리프레임워크(RMF)에 기반해 시스템과 AI 모델을 보호하는 것을 넘어, AI 시스템 내부의 데이터 흐름에 따라 검증하는 것. 거버넌스는 분류가 담당하는 한 점이 아닌, 결합이라는 과정까지 포함하는 것이다.

국가망보안체계(N2SF)는 '무엇을' 보호할지를 말한다. 이제 남은 것은 '언제, 누가' 보호할지를 재설계하는 일이다. 개인의 책임은 데이터 분류에서 끝난다. 분류 다음 단계의 책임은 거버넌스가 받아야 한다. 한 파일은 공개여도 합치면 기밀이 되는 시대, 분류 기준 정비에서 멈추지 말고 검증의 시점을 늘려야 한다. 분류가 다 정비됐다고 안도의 한숨을 쉴 때, 결합 위험은 어디서 막을 것인가.

안상현 육군 수도방위사령부 정보체계과장(중령) honorahn@gmail.com