KT, 자율 네트워크 'AIONet' 혁신 가속…유튜브·클라우드 장애 사전 탐지 성과

KT 관계자들이 서울시 우면동 KT연구개발센터에서 AIONet 플랫폼을 이용해 네트워크 이상 유무를 점검하고 있다.
KT 관계자들이 서울시 우면동 KT연구개발센터에서 AIONet 플랫폼을 이용해 네트워크 이상 유무를 점검하고 있다.

KT가 인공지능(AI) 기반 네트워크 자율운용 플랫폼으로 통신망 운영 혁신에 나선다. 장애 발생 이후 대응에 머물던 기존 방식에서 벗어나, AI가 이상 징후를 사전에 감지하고 원인을 분석해 조치 방안까지 제시하는 체계를 상용망에 적용, 망 장애 피해를 최소화한다.

지난 13일 찾은 서울 우면동 KT연구개발센터에서는 AI 기반 네트워크 운용 시스템 'AIONet(AI Operation for Network)'을 활용한 이상 징후 탐지 작업이 한창이었다.

곽민제 KT 네트워크운용혁신 담당은 “네트워크 장애는 단순한 기술 이슈가 아니라 디지털 사회의 심장과도 같은 통신 인프라를 멈추게 할 수 있는 문제”라며 “사후 대응 중심 운영에서 벗어나 AI 기반 선제 대응 체계로 전환해야 한다는 판단 아래 플랫폼을 자체 개발했다”고 말했다.

AIONet은 실시간 트래픽, 로그, 경보, 고객 불만(VOC) 등을 분석해 장애 가능성을 조기에 탐지하고 AI 에이전트가 장비 상태를 조회·진단해 원인 분석과 조치 방안을 제시했다. 장애 탐지 '넷얼럿', AI 검색 '넷파일럿', 운영 지원 '넷옵스' 등 AI 에이전트로 구성된다. 각 에이전트 분석 결과를 종합해 장애 가능성을 평가하고 운영자에게 알람으로 제공하는 방식이다.

곽민제 KT 네트워크부문 네트워크운용혁신 담당이 AIONet 플랫폼에 대해 설명하고 있다.
곽민제 KT 네트워크부문 네트워크운용혁신 담당이 AIONet 플랫폼에 대해 설명하고 있다.

현장에서 확인한 AIONet에는 주요 서비스 트래픽 흐름과 이상 탐지 현황이 한눈에 표시됐다. 화면 왼쪽에는 G사, N사, A사 등 주요 사업자 트래픽이 지역별로 흘러가는지가 시각화되고, 오른쪽 화면에는 이상 탐지 건수와 장비별 현황, AI 에이전트 분석 결과가 실시간으로 나타났다. 운영자는 AI가 띄운 티켓을 클릭해 어느 장비에서 어떤 이상이 발생했는지 바로 확인할 수 있다. 약 70대 라우터를 대상으로 1분당 3만5000건, 하루 약 500만건 규모의 탐지 작업이 수행되고 있다.

AIONet은 직접 진단 계획까지 수립한다. 장애가 감지되면 AI 에이전트가 어떤 명령어를 어떤 순서로 실행할지 정하고, 실제 장비에 접속해 조회한 결과를 대규모언어모델(LLM)로 분석해 정상·비정상 여부를 가린다. 이상 탐지에는 약 30초, 복수 단계 진단에는 1~3분가량이 소요된다.

이상 탐지는 트래픽 예측 기반으로 이뤄졌다. AI가 특정 시점 이후 6시간 동안의 정상 트래픽 범위를 예측한 뒤 실제 트래픽이 상·하한 범위를 벗어나면 이상 징후로 판단한다. 이후 복수의 이상 징후와 네트워크 조건을 결합해 장애 가능성을 가중치 형태로 계산하고, 일정 점수 이상이면 장애 가능성이 높은 상황으로 분류한다.

AIONet은 실제 성과를 거두고 있다. KT는 장애 인지부터 조치 완료까지 걸리는 시간을 평균 70분에서 17분 수준까지 줄여냈다. 실제 지난해 10월 유튜브 트래픽 이상을 VOC 접수보다 약 2시간 먼저 감지했다. 같은해 11월 클라우드플레어 장애도 외부에 널리 알려지기 전에 조기 인지해 대응했다.

KT는 올해 AIONet과 소프트웨어정의네트워크(SDN)를 연계해 자율운용 체계를 고도화할 계획이다. 현재 시스템은 TM포럼 기준 자율운용 3.5~4단계 수준이다.

곽 담당은 “AI가 실수를 할 수 있기 때문에 최종 영역은 사람에게 남겨두고 있다”며 “궁극적으로는 레벨4를 지향하고 있지만, 기술이 더 성숙돼야 가능할 것”이라고 말했다.

남궁경 기자 nkk@etnews.com