이파피루스, 문서 속 표를 엑셀파일로 제공한 AI OCR '텍스트센스 2.0' 출시

전자문서 이파피루스(대표 김정희)는 문서 내 표 부분만 자동으로 인식해 텍스트 데이터로 추출하는 것은 물론 표 구조와 내용을 엑셀 파일로 그대로 다운로드 가능한 인공지능 광학문자인식(AI OCR) 솔루션 '텍스트센스 2.0'를 선보였다고 4일 밝혔다.

회사는 2020년 '텍스트센스 1.0'을 출시한 이후 '표 인식 기능'을 대폭 강화한 신버전 제품을 출시했다. 국내 OCR 솔루션 중 텍스트센스 2.0처럼 표 인식 기능과 표를 엑셀 파일 형식으로 다운로드하는 기능을 동시 지원하는 솔루션은 드물다.

김정아 이파피루스 부사장은 “텍스트센스 2.0은 표의 행과 열 순서 파악은 물론 병합된 셀 구조까지 분석해 원본 표 형태를 그대로 정확하게 읽어내기 때문에 후 작업을 대폭 줄여준다”고 강조했다.

기존 OCR는 표 안에 있는 구조에 대한 정보 없이 텍스트만 인식하는 것이 고작이었고, 표에 병합된 셀이 하나라도 들어 있으면 텍스트 순서가 흐트러져 사람이 일일이 뒷마무리를 하는 번거로운 과정이 있었다.

회사는 원하는 데이터만 빠르게 뽑아내는 '키워드 검출 기능'도 추가했다. 일반 줄글 문서 속에서 특정 키워드를 포함한 줄을 모두 찾거나 표 안에서 원하는 단어가 있는 행 또는 열만 찾아내 준다. 일례로 인적 사항을 수집한 표에서 '010-'으로 시작하는 전화번호가 있는 열만 찾아 데이터로 추출할 수 있다.

이외 문서 내에서 가로 세로 위치를 지정해 해당 위치에 있는 텍스트만 읽어내는 것도 가능하다. 사업자등록증, 통장사본 등 일정 양식을 지닌 문서에서 사업자등록번호, 예금주 등 특정 정보만 필요로 할 때 특히 유용한 기능으로 기존 방식보다 업무 처리 시간을 대폭 줄일 수 있다.

김정아 부사장은 “단순히 종이 문서 전체를 '잘 읽기만' 하면 됐던 1차원적인 OCR의 시대는 이미 지나갔다. 오늘날 비즈니스 현장에서 필요로 하는 것은 데이터 선별과 분류까지 도와주는 솔루션”이라면서 “텍스트센스 2.0은 정확한 텍스트 인식은 물론 표 인식과 키워드 검출 기능으로 그간 OCR 후 수정·데이터 분류 작업에 필요했던 많은 시간과 수고를 덜어줄 수 있는 획기적 제품”이라고 강조했다.

안수민기자 smahn@etnews.com