지능형 문서 자동화 솔루션 기업 이파피루스(대표 김정희)는 문서 데이터 추출 라이브러리 'PyMuPDF Pro'의 대규모 업데이트를 실시했다고 14일 밝혔다. 이번 업데이트는 필요한 영역만 골라 읽는 '하이브리드 광학문자인식(OCR)' 기술을 통한 데이터 추출 성능 극대화와 인공지능(AI) 답변의 신뢰성을 시각적으로 증명하는 기능이 핵심이다.
최근 기업용 거대언어모델(LLM)과 검색 증강 생성(RAG) 수요가 급증함하면서 이파피루스는 전 세계 개발자들이 사용하는 자사 라이브러리에 최신 하이브리드 OCR 엔진을 전격 탑재했다. 기존 OCR 방식은 이미 텍스트 추출이 가능한 디지털 문서까지 전체를 이미지로 변환해 처리해 속도가 느리고 레이아웃이 왜곡되는 한계가 있다.

새롭게 도입된 '하이브리드 OCR'은 페이지 분석기가 이미지나 손상된 폰트 등 판독이 불가능한 영역만 자동으로 식별해 OCR을 적용하고, 기존 디지털 텍스트는 그대로 보존하는 방식이다. 벤치마킹 결과 기존 방식 대비 처리 속도가 약 50% 향상됐고 원본의 폰트 스타일과 표 구조를 완벽하게 유지하면서도 데이터 보완이 가능해졌다. 특히 4GB RAM의 가벼운 환경에서도 대용량 문서를 빠르게 처리할 수 있어 서버 자원 효율성을 극대화했다.
함께 업데이트된 'MuPDF Web Viewer'는 문서 내 데이터 검색 및 검증 기능을 대폭 강화했다. 단순히 키워드를 찾는 수준을 넘어 문맥을 이해하는 △AI 기반 의미 검색(Semantic Search)과 복잡한 구조 내 핵심 정보만 뽑아내는 △지능형 데이터 추출(Smart Extraction) 기능을 적용했다.
가장 혁신적인 신규 기능은 △ AI 출처 확인(AI Citation) 이다. 이는 AI가 생성한 답변이 원문의 어느 부분에 근거했는지 시각적으로 즉시 증명하는 기술이다. 사용자가 답변 내 인용 문구를 클릭하면 해당 페이지로 즉시 이동해 근거 문장을 하이라이트 처리해 준다.
이경민 기자 kmlee@etnews.com