
인공지능(AI) 에이전트 도입에서 가장 자주 보는 실패는 한 가지다. 데모에서 완벽하던 에이전트가 현장에서 무너진다. 흔히 원인을 모델에서 찾지만, 진짜 질문은 따로 있다. 이 에이전트가 무엇을 할 수 있는가가 아니라, 무엇을 해야 하는가. 에이전트의 본분이다.
에이전트를 만드는 방식은 대개 둘 중 하나로 기운다. 모든 경로를 미리 정해 둔 파이프라인에 맞추거나, 도구만 충분히 붙여 주고 알아서 잘하기를 기대한다. 처음 보는 요청이 들어오면 전자는 가장 가까운 칸에 끼워 맞추고, 후자는 그럴듯하지만 틀린 답을 내놓는다. 둘 다 데모에서는 문제없이 작동한다. 만든 사람이 자신이 상상한 상황만 시험하기 때문이다. 문제는 현장에서 드러나고, 더 큰 문제는 드러난 줄도 모른 채 지나간다.
도널드 럼스펠드는 지식을 세 가지로 나눴다. △이미 알고 있는 것(known knowns) △모른다는 사실은 알고 있는 것(known unknowns) △무엇을 모르는지조차 알지 못하는 것(unknown unknowns)이다. 미리 만든 점검 목록은 '이미 알고 있는 것'에 대한 답일 뿐이다. 목록으로 정리될 일이라면 애초에 에이전트가 필요하지도 않다.
에이전트의 본분은 누구도 미리 떠올리지 못한 상황, 곧 '알지 못하는 것'에서 일하는 순간 드러난다. 우리는 업무에 '빈칸'이 있다는 사실은 알지만, 앞으로 생길 모든 예외 상황을 미리 규칙으로 만들어 둘 수는 없다.
그래서 예측할 수 없는 상황에서는 정답을 하나씩 나열해 두는 방식만으로는 부족하다. 처음 마주한 문제에도 적용할 수 있고, 에이전트가 제대로 행동했는지도 판단할 수 있는 분명한 기준이 필요하다. 예를 들어 고객 불만 처리 에이전트에 '고객을 만족시켜라'라고 지시하는 것은 구체적인 기준이 아니라 방향을 제시하는 표어에 가깝다.
반면 '환불을 거절할 때는 적용된 약관 조항을 제시한다' '권한을 넘는 예외는 임의로 승인하지 않고 담당자에게 넘긴다' '같은 상황의 두 고객을 다르게 대하지 않는다'는 한 번도 본 적 없는 사례에도 적용되고 지켰는지 판단할 수 있다. 무엇을 지향할지 정하는 일과 그것이 지켜졌는지 가릴 기준을 세우는 일은 둘이 아니다. 그래서 설계와 평가는 처음부터 한 몸이다.
좋은 본분에는 멈출 때도 담겨 있다. 에이전트가 자신이 무엇을 모르는지를 아는 것이 중요하다. 자신의 '모른다는 사실은 알고 있는 것', 곧 다룰 수 있는 영역의 경계를 알고 그 너머에서 멈추거나 사람에게 넘길 수 있어야 에이전트를 신뢰할 수 있다. 더 까다로운 문제는 사람에게서 나온다. 만든 사람이 의식조차 못 한 전제가 에이전트에 반영되면 보이지 않는 한계가 된다. 안다는 사실조차 모르는 모두가 놓치는 빈칸이다.
그래서 평가의 목적은 불확실성을 없애는 것이 아니라, 보이지 않던 빈칸을 보이는 빈칸으로 바꾸는 데 있다. 모르는 줄도 몰랐던 실패가 한 번 드러나면 그때부터는 다룰 수 있는 '모른다는 사실은 알고 있는 것'이 된다. 그 빈칸에는 기준을 세우고 에이전트의 본분을 다듬을 수 있다. 모델과 데이터와 맥락은 끝없이 바뀌고 어긋남은 조용히 스며들기에 사람이 일일이 지켜보는 것은 불가능하다.
흥미롭게도 이 평가야말로 사람보다 AI가 더 잘 사람과 함께 해낼 수 있는 일이다. AI가 수많은 사례를 기준에 비추어 살피고 어긋난 것을 추려 주면 사람은 판단에 집중해 기준을 다듬는다. 보이지 않던 빈칸을 끊임없이 보이게 만드는 이 일, AI 에이전트의 확산과 기업의 AI전환(AX)이 결국 넘어서야 할 지점은 여기에 있다.
김민준 한국인공지능·소프트웨어산업협회(KOSA) 초거대AI추진협의회원·랭코드 대표
admin@langcode.io