
최근 인공지능(AI)이 노동력으로 진화하고 있다. 머지않아 기업들은 신입사원을 선발하듯 AI를 '채용'하고, 인사고과하듯 AI를 '평가'하고, 업스킬링을 하듯 AI를 '교육'하는 체계를 갖출 것으로 보인다. 기능적으로 보면, 사람의 지시에 따라 업무를 보조하는 지원도구(AI 어시스턴트)에서 자율적으로 업무를 처리하는 AI 대리인(AI 에이전트)으로의 발전이다. 기술적으로 보면 AI 모델이 사전 학습한 범위 내에서 정답을 도출하는 추론(Inference)에서 AI 에이전트들이 복잡한 의사결정 문제를 여러 단계로 분절한 후 역할을 나눠 '사고→검토→통합'하며 해답을 찾는 추론(Reasoning)으로의 진보다.
기업들의 관심도 AI 모델 개발에서 AI 노동력 평가로 확장하고 있다. AI 국가대표 프로젝트로 떠들썩해 보이지만, 막상 산업 현장에서는 대부분의 기업이 AI 파운데이션 모델을 어떻게 개발할 수 있는지 그리 궁금해하지 않는다. 해외 빅테크와 국가대표 AI 프로젝트가 개발한 파운데이션 모델의 성능도 큰 관심사는 아니다. 오히려 현장 기업들의 제1관심사는 AI 노동력이 사람보다 얼마만큼 일을 잘하는지, 얼마만큼 믿을 만한지, 그래서 우리 회사에 뽑아 쓸 수 있는지 등에 있다. 필자가 수행한 산학 공동연구 사례를 통해 구체적으로 살펴보도록 하겠다.
#사례1 국내 정보기술(IT) 대기업 A사는 입사지원자의 이력서, 자기소개서 등을 서류심사 하는 AI를 개발했다. 수천건의 지원서를 읽으려면 일주일 이상 걸리던 일을 AI는 단 몇 시간 안에 처리한다. 게다가 개발팀은 AI와 인사팀이 선발한 서류심사 통과자의 일치율이 90%에 달한다고 강조한다. 그러나 인사담당자들은 AI 도입을 망설인다. AI가 과연 인사 전문가처럼 행간까지 읽으며 숨은 인재를 찾을 수 있는지 평가하고 알려 줄 것을 개발팀에 요청한다.
#사례2 국내 대표 특허법인 B사는 기술의 경제적 가치를 분석하는 AI를 개발했다. B사가 개발한 AI를 사용하면 전문가의 기술가치평가 대비 서비스 요금이 약 90% 이상 낮아진다고 영업한다. 그러나 고객들은 서비스 구매에 앞서 AI의 기술가치평가가 전문가에 비해 신뢰할 수 있는 수준인지 아닌지 객관적 수치를 알고 싶어 한다. 이제 B사의 당면과제는 AI 개발에서 AI 평가로 넘어갔다.
#사례3 스타트업 C사는 동영상에 외국어 더빙을 입혀주는 AI를 개발했다. 우리말로 된 유튜브 동영상을 AI가 스페인어로 더빙하는 데 필요한 시간은 고작 몇분 남짓이다. 시연을 본 고객들은 C사의 기술력에 감탄하는 한편, 정작 서비스 구매는 망설인다. AI의 더빙이 인간 성우에 비해 자연스러운지 확신이 들지 않기 때문이다. 이제 C사의 고민은 자사 AI의 더빙의 자연스러움을 평가하는 것이다.
문제는 아직 제대로 된 AI 평가 체계가 없다는 것이다. AI 벤치마크와 성능지표가 이미 많다는 반박이 있을 수 있다. 그러나 현재 널리 쓰이는 평가지표는 AI '모델'을 대상으로 한다. 수리능력을 검증하는 GSM8K, 언어능력을 분석하는 GLUE, 분류능력을 판단하는 F1 Score 등이 대표적이다. 비유하자면 수능처럼 AI 모델의 공부머리를 점검한다.
기업들의 관심사는 AI 모델의 공부머리가 아니라, AI 노동력의 일머리다. 업무완수율을 예로 들어 보자. 이 평가지표는 AI 노동력이 할당된 업무를 성공적으로 완료한 비율을 의미한다. 100건의 고객 문의 처리 업무를 AI에게 맡긴다고 가정해보자. 문의 건마다 고객이 만족할 만한 답을 제공하고, 필수 조치를 했는지에 따라 성공 여부를 판별한다. 65건을 성공했다면 AI의 업무완수율은 65%다.
산업계에서는 업무완수율 외에도 더 많은 AI 노동력 평가지표와 측정방법을 필요로 한다. AI 노동력 평가를 자동화하는 방법도 전에 없던 수요로 떠오르고 있다. 새로운 비즈니스 기회가 열리고 있는 시점이다.
박현규 서강대 기술경영전문대학원 교수 hp376@sogang.ac.kr