정보통신(IT) 통합운영관리 솔루션 전문기업 와치텍은 점차 복잡해지는 IT 운영 환경 변화에 대응해 인공지능 운영관리(AIOps) 기능 고도화에 속도를 낸다고 13일 밝혔다.

최근 공공기관과 민간 기업의 IT 인프라는 레거시부터 클라우드 네이티브까지 다양한 시스템이 응용프로그램 인터페이스(API)로 실시간 연결되면서, 하나의 장애가 연쇄적으로 다수 서비스에 영향을 미치는 상황이 일상화되고 있다.
이 과정에서 운영 데이터의 양 역시 기하급수적으로 늘어나면서 기존의 임계치 기반 모니터링과 수동 분석 방식만으로는 장애 원인을 신속히 특정하고 대응하는 데 한계가 커지고 있다. 아울러 공공기관의 경우 숙련된 IT 인프라 운영 인력 부족이 심화되면서, 장애 대응 품질이 운영자의 경험과 숙련도에 따라 크게 달라지는 문제가 지속 제기돼 왔다. 특히 실제 장애는 하나의 지표가 아닌 여러 지표의 변화가 복합적으로 맞물려 발생하는 경우가 많아, 단순 임계치 기반 접근만으로는 조기 대응에 한계가 있다.
와치텍은 이러한 한계를 극복하기 위해 '와치올 AIOps'를 기반으로 단순히 장애를 '보여주는' 수준을 넘어, AI가 이상 징후를 탐지하고 원인을 분석해 실행 가능한 인사이트를 제공하는 '답을 주는 모니터링' 패러다임으로의 전환을 제시했다.
와치올 AIOps는 복수의 성능 데이터를 동시에 분석하는 다변량 이상징후 탐지를 통해 기존 방식으로 포착하기 어려웠던 이상 징후를 조기에 식별한다. 또한 장비 간 연결 관계와 이벤트 연관성을 분석해 불필요한 경고 노이즈를 제거하고, 운영자가 실제 원인 중심으로 대응할 수 있도록 핵심 이벤트를 우선 제공한다.
여기에 장애가 어디에서 시작되었는지 자동으로 추론하는 근본 원인 분석(RCA), 성능 지표의 미래 추이를 분석해 장애 발생 시점을 사전에 제공하는 성능 예측, 운영 데이터 기반으로 최적 임계치를 제안하는 임계치 설정 가이드, 거대언어모델(LLM) 기반 장애 원인 해설 및 조치 가이드 제공 기능까지 결합해 운영 전반의 분석과 대응 역량을 고도화했다.
이러한 기능 고도화는 실제 운영 현장에서 장애 대응 속도와 운영 효율을 동시에 높이는 실질적 효과로 이어진다. 먼저 장애 발생 시 근본 원인을 빠르게 특정함으로써 평균 장애 복구 시간(MTTR)을 크게 단축할 수 있다. 또한 경고 노이즈가 대폭 줄어들면서 운영 인력이 반복적인 알람 확인 대신 핵심 문제 해결에 집중할 수 있게 된다. 장기적으로는 메모리 누수 등 자원의 비정상적인 사용 패턴을 식별해 불필요한 증설 비용을 줄이고 선제적 리소스 최적화까지 가능하다.
와치텍은 향후 AIOps 기능을 기반으로 장애 탐지부터 원인 분석, 대응 자동화까지 아우르는 지능형 통합 운영 체계를 고도화해 나갈 계획이다. 특히 공공 환경에서 증가하는 운영 복잡성과 인력 부담을 해소할 수 있도록, 운영자의 경험 의존도를 낮추고 데이터 기반의 일관된 의사결정 체계를 지원하는 데 역량을 집중한다는 방침이다.
이경민 기자 kmlee@etnews.com