[기고]AI 모델과 AI 기반 시스템, 도대체 어떻게 평가해야 하나

글자 작게 글자 크게 인쇄하기
권원일 STA테스팅컨설팅 대표
<권원일 STA테스팅컨설팅 대표>

인공지능(AI)은 이제 낯선 분야가 아니다. 정보기술(IT) 분야 종사자는 물론 일반인도 많은 경우 AI 스피커, 번역기 등으로 AI를 활용하며 친숙하게 사용한다. 정부에서도 AI를 국가전략산업 핵심으로 보고 관련 과제 발주와 지원을 급격히 늘렸다.

한국 AI 분야가 선진국은 물론 중국에 비해서도 몇 년 뒤늦게 발전하는 것을 감안하면 AI 분야에 지금처럼 급격하게 투자하고 성장시키는 것은 바람직하다. 그러나 이에 따라 부실한 AI 기반 시스템도 확산되고 있음을 인지해야 한다.

AI 관련 산업을 활성화하기 위해서는 AI 모델과 AI 기반 시스템 완성도, 품질 수준, 안전성을 높이는 것이 필수다. 출발점이 AI 모델과 AI 기반 시스템 평가 기준, 평가 방안 마련이다.

현재 AI 모델과 AI 기반 시스템 평가 기준 및 평가 방안 요구가 많고, 현실 및 실무상의 필요성도 늘어난다. AI의 특성을 고려해 기존과 다른 방식으로 평가해야 할지, 기존과 같은 방식으로 평가하면 되는지 의견이 분분하다. AI가 안전과 관련된 분야에 사용되면서 AI 안전성 확보를 위한 평가도 어떻게 접근할지 막연하다.

기계학습 기반 AI 중심으로 이를 평가하는 방안을 알아보고 고민해 봐야 한다.

기계학습 기반 AI 모델은 데이터가 핵심이다. 평가에 사용되는 데이터가 편향되지 않고, 투명도(설명 가능한 정도)가 높으며, 데이터 완결성이 높은지 파악해야 한다. 정제된 평가 데이터로 모델을 테스트하면서 산출 가능한 AI 성능 지표를 측정하는 것이 기본이다.

일반 AI 성능 지표는 민감성, 정밀도, 거짓양성률(FPR) 등이다. AI 성능 지표는 AI 모델 사업 사용 사례에 맞아야 한다. 많은 경우 AI를 개발하는 기업은 이 성능 지표 가운데 수치가 높게 나오는 기업에 유리한 지표를 제시한다. 이 주장이 적절한지는 반드시 평가해야 한다. 개발 기업이 제시하는 성능 지표 수치가 '완성도 높은 데이터'로 학습을 시키고 테스트된 수치인지 확인해야 한다.

AI 모델이 포함된 AI 기반 (서브)시스템을 평가할 때는 관련된 소프트웨어(SW) 품질 특성 외에도 AI에 특화된 품질 특성을 식별하고 평가해야 한다.

이를 평가하기 위해서는 해당 품질 특성을 AI 특성에 맞는 테스트 설계 기법이나 테스트 접근법 등을 활용, 테스트 항목을 도출한 후 실행해야 한다. 테스트 결과는 해당 품질 특성을 수치로 표현해 보고서에 담을 수 있다. 실무에서는 AI 품질 특성을 반영한 테스트 항목을 실행한 후 어느 정도 결함이 발견됐는지를 수치화하고 보고서에 담는 것을 추천한다.

AI 평가는 자율주행차 등 안전과 관련돼 사용될 경우 중요성이 더해진다. AI가 자동차 분야, 의료 분야 등 안전과 관련된 분야로 확산되면서 비결정 및 확률 특성을 띠는 AI의 안전을 어떻게 보장해야 할지 우려의 목소리가 크다. 관련 기업이 여러 방안을 모색하고 시도하지만 명확한 방법은 어디서도 제시되고 있지 않다.

AI 모델과 AI 기반 시스템을 평가해야 할 상황은 다양하고 많지만 전문가 수는 절대 부족하다. 관련 인력 양성을 위해 글로벌하게 AI 평가에 활용 가능한 테스팅 방법을 담은 국제자격증과 관련 교육이 한국과 중국 주도로 추진되고 있다. ISO 국제표준에서도 이를 기술보고서 형태로 제정하고 있다.

현재 SW인증컨소시엄이 운영하고 있는 AI SW 인증과 AI 시험성적서가 국내에서 발급돼 업계의 관심을 끌고 있다. 한국인공지능협회, 전자신문사, 부산정보산업진흥원, STA테스팅컨설팅이 참여해 AI 평가와 테스팅을 체계화하고 발전시켜 나가고 있다.

AI 확산은 산업 전반에, 현대인의 생활 전반에 큰 영향을 미친다. 그만큼 AI 모델 및 AI 기반 시스템 품질과 이를 적절히 평가하고 테스트하는 기준 및 방법이 시급히 필요하다. 그래야 AI를 산업 전반에 신속히 확산시킬 수 있고, 우리가 타 국가에 비해 AI 산업에서 경쟁력을 확보해 나갈 수 있다.

권원일 STA테스팅컨설팅 대표 wonil@sta.co.kr