
인공지능(AI) 자율제조 전문 기업 인터엑스가 제조·공공·연구기관을 위한 문서 구조화 전처리 서비스 'Document.AI API'를 공식 출시했다고 4일 밝혔다.
이 서비스는 수식(Formula)·중첩 표(Table)·차트(Image)가 혼재된 복잡한 기술 문서를 정밀하게 분석·구조화할 수 있는 것이 강점이다. 대규모 언어 모델(LLM)·검색증강생성(RAG) 기반 챗봇·문서 검색·사내 포털 구축에 필요한 핵심 전처리 기능을 응용프로그램 인터페이스(API) 형태로 제공한다.
Document.AI API는 문서 내 텍스트뿐 아니라 표·수식·차트·캡션·섹션 구조를 최대한 보존한 상태로 JSON·HTML·Markdown 등 다양한 형태로 변환할 수 있다. 특히 제조·엔지니어링 문서에 자주 등장하는 멀티 페이지 표를 의미적으로 하나의 표로 자동 병합하는 기능을 탑재해 기술 보고서·품질 문서 처리 정확도를 크게 높였다는데 큰 의미가 있다.
전 세계 기업 데이터 상당 부분은 PDF, HWP, 스캔 이미지, 보고서, 계약서처럼 형식과 구조가 제각각인 비정형 문서 형태로 존재한다. 디지털 전환·자동화 프로젝트에서도 결국 가장 많은 시간과 인력이 투입되는 지점은 문서를 시스템이 이해 가능한 구조화 데이터로 변환하는 과정이다.
인터엑스는 이 과정을 '문서 구조화 전처리(비정형 문서 데이터화)'로 규정하며, 이번 Document.AI API를 통해 이 병목을 서비스형 소프트웨어()SaaS) 기반 API 형태로 외부에 개방했다. 단순 텍스트 추출을 넘어 표·수식·차트·캡션·섹션 구조까지 그대로 보존해 이후 검색·RAG·내부 시스템 연계가 가능한 형태로 변환할 수 있도록 설계된 것이 특징이다.
Document.AI API서비스의 가장 큰 특징은 제조·엔지니어링 문서에 특화된 구조 분석 능력이다.
설비 점검표, 품질 성적서, 시험 성적서, 공정 보고서처럼 표가 들어가고, 수식·단위·경계값이 섞여 있는 문서 연구개발(R&D) 보고서, 특허 문서, 기술 논문처럼 수식(Formu la)·표(Table)·차트(Image)가 한 페이지에 뒤섞인 문서 등 이러한 문서에 대해 인터엑스 Document.AI API 서비스는 “정밀도와 구조 보존”에 초점을 맞춘다.
특히, 페이지 경계에 걸쳐 분리된 표(Multi-page Table)를 의미적으로 완전한 하나의 표로 자동 병합하는 기능을 추가하여, AI 모델이 대규모 데이터를 더욱 정확하고 완전하게 이해하고 활용할 수 있도록 기술적인 완성도를 높였다.
“대량으로 수십만 페이지를 '대충 빨리' 돌리는 역할보다는, 엔지니어·연구자가 다시 손으로 재작업하지 않아도 될 만큼 정밀하게 파싱하는 역할에 집중했다”는 것이 회사 측 설명이다.
Document.AI API서비스는 '제조·공공·연구기관을 상대로 LLM·RAG 기반 챗봇, 문서 검색, 사내 포털 등을 구축하는 SI, AI 스타트업, 대기업·기관 내부 DX·데이터·개발팀이 1차 타깃이다. 이들은 매번 문서 파싱 엔진을 새로 만들 필요 없이, 제조·공공 문서에 특화된 문서 전처리 엔진을 API 형태로 바로 가져다 쓸 수 있다.
도메인 관점에서 보면, 제조 산업 점검표·품질 성적서·생산 보고서처럼 표·수식·단위·경계값이 얽힌 문서를 정밀하게 읽어야 하는 현장이나 정부·공공·연구기관 HWP 공문, 연구·정책 보고서 등 한글·표·차트가 복잡하게 섞인 문서를 대량으로 다루는 조직에 적합하다.
또한 기업, 시스템 통합(SI) 프로젝트 수행사, 데이터 전처리가 중요한 조직 고객사의 문서를 기반으로 챗봇·검색·요약·분석 서비스를 개발하기 위해, 문서 구조화·정제 작업을 안정적으로 맡길 엔진이 필요한 곳이 대상이다.
인터엑스는 이번 서비스를 문서 때문에 막힌 프로젝트를 다시 움직이게 만드는 문서 구조화 전처리 SaaS라고 정의하고 “디지털 전환 경쟁력은 얼마나 많은 문서를 제대로 읽고 구조화할 수 있는지에서 시작된다”고 강조했다. 또한 “제조·공공·연구 현장에서 축적한 문서 이해 기술을 API 형태로 개방함으로써, 복잡한 문서를 다루는 엔지니어·연구자·공무원이 가장 먼저 체감할 수 있는 서비스가 되는 것이 목표”라고 밝혔다.
Document.AI API는 가입 즉시 100 크레딧 무료 제공 혜택을 제공하며, 인터엑스 홈페이지(선불)와 AWS 마켓플레이스 중 선택해 이용할 수 있다.
이경민 기자 kmlee@etnews.com