나라지식정보, 공공AX 17번 과제 2차년도 착수보고회…AI로 근대자료 활용 혁신 가속

AI OCR 중심 통합 파이프라인 고도화 및 자동화 전환

나라지식정보. 사진=나라지식정보
나라지식정보. 사진=나라지식정보

과학기술정보통신부 산하 정보통신산업진흥원(NIPA)의 공공AX 프로젝트 사업 계속과제인 '한국 근대 다문자 자료 활용 지원 AI 솔루션 개발 및 실증'의 착수보고회가 3월 17일 충북 진천 정보통신산업진흥원(NIPA) 컨퍼런스홀에서 열렸다.

이날 보고회는 통합 보고회로 공공AX 과제 20개 컨소시엄이 모두 참여했으며, 나라지식정보 컨소시엄(주관기관 나라지식정보, 참여기관 리스트)은 세 번째로 발표를 진행했다. 발표는 PM 정규상 이사가 맡아 2차년도 사업 추진 방향을 설명했다.

1차년도에는 국사편찬위원회 근대자료 약 4만 건을 확보하고, 이미지 정제·구조화 및 다문자 병렬 데이터 구축을 완료했다. 또한 AI OCR 기반 문자인식 모델과 번역·요약·검색 프로토타입을 개발하고, 워크벤치 기반 파일럿 시스템과 사용자 피드백 구조를 구축했다.

2차년도에는 약 20만 건 이상의 근대자료를 추가 확보하고, 한자·일어·국한문 혼용문자와 세로쓰기, 필기체까지 대응 가능한 AI OCR 고도화에 집중한다. 특히 전처리 자동화와 LLM 기반 보정 기술을 결합해 문자인식 정확도를 획기적으로 향상시킬 계획이다.

이와 함께 번역·요약 모델 고도화, RAG 기반 의미검색 시스템 구축, 국사편찬위원회 역사정보시스템 연계를 통한 실증 적용을 추진한다. 사용자 참여형 플랫폼을 통해 국민이 직접 활용하고 피드백할 수 있는 구조도 구현할 예정이다.

손영호 나라지식정보 대표는 “이번 2차년도는 OCR 중심 AI 기술을 공공서비스로 전환하는 핵심 단계”라며 “향후 OCR 기반 시각장애인 보조기기와 범용 공공AX 통합솔루션으로 확장해 국민 누구나 지식정보에 접근할 수 있는 환경을 구축하겠다”고 밝혔다.

이원지 기자 news21g@etnews.com