인공지능(AI) 대 인간 번역대결 공정했나?

인공지능(AI) 대 인간 번역대결 공정했나?

인공지능(AI) 번역 프로그램과 인간 통번역사와 대결에서 인간의 승리로 끝났지만 평가 공정성에 문제가 있다는 지적이다. 일부 AI 번역에 최신 인공신경망번역(NMT)이 아닌 기존 통계 기반 번역(SMT)이 적용된 것으로 드러났다.

22일 세종대학교 측이 공개한 `인간 대 인공지능 번역대회` 평가 자료에 따르면 AI 번역 프로그램 `B`는 네이버 통번역 앱 파파고로 추정된다. 본지 기자가 직접 파파고 앱에 영한 번역 문학 지문 `Thank you for being late(단어수 : 232)`를 입력한 결과 파파고 SMT방식 번역 결과와 일치한다는 점을 확인했다.

파파고는 지난해 10월 NMT 방식을 도입, 번역 품질을 2배가량 높였다. 베타 서비스 기간이라 200자까지만 NMT 방식이 적용된다. 대회 주최 측은 21일 대회에서 이 점을 고려, 200자씩 나눠 입력했다고 밝혔다. 그러나 공개 결과는 사실과 다른 것으로 드러났다. 200자씩 나눠 입력했다고 해도 뒷부분은 전체 맥락을 고려하기 힘들어 번역 품질이 낮아진다는 게 네이버측 설명이다.

강대영 국제통번역협회 국장은 “200자씩 나눠서 입력하지 않으면 입력 자체가 안 된다”면서 “결과가 다르게 나온 이유는 알지 못한다”라고 설명했다.

대회 주최 측이 공개한 인공지능 B 답안지<직접 캡처>
대회 주최 측이 공개한 인공지능 B 답안지<직접 캡처>
파파고 통계 기반 번역결과 적용<직접 캡처>
파파고 통계 기반 번역결과 적용<직접 캡처>
파파고 인공신경망번역방식 적용 결과<직접 캡처>
파파고 인공신경망번역방식 적용 결과<직접 캡처>

IT업계에서는 대회 운영상 문제점을 지적한다. 구글 번역, 파파고, 시스트란 번역 등은 지문을 넣으면 1분 내외로 번역 결과가 나온다. 고민하고 자가 수정이 가능한 인간 통번역사 팀에게 인터넷 검색을 허용, 50분을 부여할 게 아니라 동시 통역 대결을 벌여야 정확한 비교가 가능하다는 것이다. 이번 대회에 포함된 문학 번역은 자체로 예술 영역에 속한다. 역자에 따라 번역이 갈린다. 예술적 감수성에 따라 독자마다 평가가 다르다.

대회 의미에 회의적 시각도 존재한다. 기존에 널리 알려진 인간 우위를 재확인하는 데 그쳤다는 것이다. AI 번역이 정확하지 않다는 것은 꾸준히 소개됐다. 굳이 전문 통번역가가 아니더라도 고등 영어를 충실히 학습한 사람과 비교해 정확도에서 격차가 있다. 현재 수준으로는 전문적이고 난이도 높은 지문이 아닌 일반 지문도 AI가 완벽하게 번역하기 어렵다.

주최 측은 짧은 시간 탓에 채점해 결과를 가리는 데 급급했다. 국내 통번역 전문가가 모였지만 AI 번역이 어떤 부분에 문제가 있는지 구체적 설명이 부족했다. 정확한 분석을 위해 난이도 조절을 세분화해야 했다는 의견도 나온다. 인간 통번역사의 AI 번역 도구 활용 방안 등 발전적 대안 제시도 없었다. 전문 통번역은 책임성, 예술성, 가치관 등 이유로 100% 인공지능에게 맡기기 어려운 영역으로 꼽힌다.

과학기술계 관계자는 “기계 번역끼리 대결에도 여러 인간 번역 전문가가 결과를 수일 동안 심층 분석한다”면서 “이번 대회는 인간이 AI보다 번역에서 우위에 있다는 사실만 재확인하고 바둑계처럼 발전적 AI 활용방안을 모색하는 시도가 없어 아쉽다”라고 지적했다.

오대석기자 ods@etnews.com