한국IBM “신뢰할 수 있는 AI 분석, 데이터·AI모델·프로세스 만족시켜야”

발행일 : 2022-11-30 17:39

AI 기반 데이터 분석은 이미 널리 수행되고 있지만 데이터 측면과 AI 모델 측면에서 해결해야 할 난관을 갖고 있다.

우선 데이터 측면에서는 다양한 인프라 환경, 다양한 데이터 소스, 다양한 데이터 애플리케이션들을 이유로 데이터가 파편화, 산재돼 있어 결과적으로는 분석에 사용되지 못하는, 이른바 다크 데이터가 늘어나고 있다는 점이다. IBM의 조사에 따르면 기업들의 데이터 중 평균 60~73%가 사용되고 있지 않는 것으로 나타났다.

두번째 AI 측면에서의 문제는 많은 기업들이 AI 모델을 앞다퉈 생성하고 있지만 AI 모델 자체의 신뢰성에 대해서는 의심을 하고 있지 않다는 것이다. 해외의 경우 AI 모델이 편향된(bias) 변수를 토대로 함으로써 인종, 성차별 이슈까지 발생하기도 했다.

11월 24일 전자신문인터넷과 넥스트데일리 공동 주최의 ‘클라우드 데이터 인텔리전스&거버넌스 전략’ 온라인 컨퍼런스에서 한국IBM 김지관 실장의 기조연설은 그러한 의문에서 시작한다. 데이터, AI 모델, 프로세스 3가지 측면에서 신뢰성이 확보되지 않을 경우 도출된 비즈니스 인사이트 역시 신뢰할 수 없다는 것이다.

한국IBM “신뢰할 수 있는 AI 분석, 데이터·AI모델·프로세스 만족시켜야”

김지관 한국IBM 실장은 기조강연에서 “AI 분석의 신뢰성은 한 마디로 말해 그러한 결과가 도출된 이유와 배경에 대해 사람이 자연어로 명확하게 이유를 설명할 수 있는 것”이라고 말했다.

예를 들어 금융권에서 AI 기반 데이터 분석을 통해 대출 심사를 진행했을 때 대출이 거부된 이유, 최대 대출 금액의 산정 이유는 고객을 상담하는 창구 직원의 언어로 설명될 수 있어야 한다. 또한 따라서 신용도나 담보 가치 등에 다른 값이 입력됐을 경우 결과값 또한 달라짐을 고객에게 보여줄 때 해당 분석 결과에 대한 신뢰성이 공유된다고 설명했다.

그렇다면 AI 기반 데이터 분석에서 신뢰성을 어떻게 확보할 수 있을까. 한국IBM은 ‘신뢰 가능한 데이터-AI 라이프사이클(Data-AI lifecycle)’을 위해서는 데이터의 경우 데이터 사일로 제거 및 실시간 데이터 접근, 그리고 품질 검증된 데이터의 셀프서비스가 필요하다고 지적했다. 이는 크게 세 가지 기술로 구현되는데 데이터 가상화와 데이터 패브릭 아키텍처, 그리고 전사 데이터 카탈로그다.

‘신뢰 가능한 데이터-AI 라이프사이클’의 두번째 요소는 AI 모델의 신뢰성 확보다. 김지관 한국IBM 실장에 따르면 이는 △공정성(Fair) △설명 가능성(Explainable) △지속신뢰성(Robust)에서 AI 모델을 점검해야 한다. 우선 공정성을 위해서는 AI 모델이 편향적(bias)이지 않는가를 살펴야 하는데, △배포된 모델 예측 결과에 대한 공정성을 상시 지속적으로 모니터링하고 △특정 변수별 편향성 여부를 감지할 경우 대시보드와 이상 알림을 수행하며 △이에 따라 편향성을 제거하고 △편향적이지 않은 공정한 모델을 즉시 제공, 프로덕션에 적용할 수 있어야 한다.

AI 모델의 설명 가능성(Explainable)은 모델 결과를 자연어로 쉽고 직관적으로 설명할 수 있느냐 하는 것이다. 이는 첫번째 점검 포인트인 AI의 모델의 공정성이 확보되어야 가능하다. 변수들에 대한 설명, 변수에의 입력값이 달라질 경우 결과값에 대한 설명 등이 사람의 언어로 납득될 수 있어야 하기 때문이다.

세번째 지속신뢰성(Robust)은 AI 모델의 품질 관리라고 할 수 있다. 시간이 지나도 AI 결과값을 계속신뢰할 수 있느냐 하는 것으로, 이는 AI 모델의 품질을 상향 유지시키기 위한 노력을 요구한다. 김지관 한국IBM 실장은 모델 품질의 하락 추세를 감지하기 위해서는 두 가지 트랜잭션을 모니터링해야 한다고 설명하는데 △모델 정확도를 저해하는 트랜잭션 △데이터 일관성을 저해하는 트랜잭션이 그것이다.

이러한 두 트랜잭션을 탐지함으로써 모델 품질의 하락 추세를 준(near) 실시간으로 감시하고, 임계치에 도달할 경우 관리자에게 알려주어 모델을 재학습시킬 수 있다. 재학습된 모델은 다시 배포됨으로써 AI 모델의 상태가 지속적으로 탄탄하게 유지될 수 있다.

‘신뢰 가능한 데이터-AI 라이프사이클’의 세번째 요소인 AI 모델의 프로세스 신뢰성은 △AI 모델 메타데이터를 자동 수집하는가(Facts and Lineage) △AI 모델이 법규제 및 표준을 준수하는가(Governance) △AI 모델이 검증/승인 프로세스 및 내부통제를 따르는가(Validation) △AI 모델 라이프사이클을 자동 프로세스화 할 수 있는가(Orchestration)를 점검함으로써 구현된다.

AI 모델 메타데이터의 자동 수집은 AI 모델의 카탈로그 관리와 AI 팩트시트(Factsheet)의 자동 생성을 전제로 한다. 또 모델 리니지 관리를 통해 버전 및 사용 이력을 추적 관리하며, 모델 학습에 사용된 데이터 역시 식별하고 추적 관리할 수 있어야 한다.

AI 모델의 거버넌스와 인준(Validation)은 AI 모델 라이프사이클 전반에 걸쳐 버전별 및 단계별 추적과 분석을 수행하면서 AI 모델의 편향, 품질 등이 법규제와 표준, 내부통제 규칙을 따르는지 모니터링하는 것을 뜻한다. 이를 위해서는 전사적 AI 모델 리스크 관리(MRM)의 프로세스를 확보하고 상시 모니터링을 수행하는 동시에 AI 모델의 검증/승인 프로세스를 관리하고 내부통제를 위한 가시성을 확보해야 한다.

AI 모델 라이프사이클의 자동 프로세스화(Orchestration)는 AI 모델의 개발과 배포, 재학습 및 재배포의 자동화는 물론, AI 모델에 사용되는 학습 데이터를 위한 데이터 파이프라인 자동화도 포함한다. 이러한 자동화가 구현되면 데이터 전문가뿐 아니라 다양한 현업 분석 사용자 계층을 수용할 수 있으며 다양한 AI 모델 개발이 가능하다. 이를 위해서는 노코드 및 로코드 개발 환경도 AI 모델링 툴이 지원해야 한다.

IBM은 데이터 측면에서의 접근성을 위해 데이터 패브릭 아키텍처를 지향하며, 신뢰할 수 있는 AI 구현을 가능케 하는 솔루션으로 IBM 클라우드 팍 포 데이터(Cloud Pak for Data, CP4D)를 제안하고 있다. 이러한 기능들을 모두 지원하는 IBM CP4D는 어떤 기술 스택에서도 사용할 수 있는 모듈형 컴포넌트로 개방성과 유연성을 제공하며 이미 전 세계 1800여 고객사들이 사용하면서 시장의 신뢰성을 검증받고 있다.

전자신문인터넷 유은정 기자 (judy6956@etnews.com)