[디지털문서 인사이트]AI기술 활용해 디지털전환 효율성을 높이자

[디지털문서 인사이트]AI기술 활용해 디지털전환 효율성을 높이자

최근까지 끊임없이 진행된 디지털전환(Digital Transformation) 노력에는 여전히 미진한 영역이 남아 있다.

공공기관을 예로 들면 '공공기록물 관리에 관한 법률'이 시행되면서 국가 DB 구축 사업으로 2000년대 초반부터 각급 행정기관이 보유하고 있는 중요기록물의 전산화를 진행했다. 관련 업계는 공공기관 기준으로 약 70% DB 구축이 완료된 것으로 파악하고 있다.

현재는 단순 스캔 사업보다 구축된 자료의 정보공개를 위한 추가적인 사업(정보공개를 위한 마스킹사업, 기록물 공개재분류사업 등)이 진행되고 있는 상황이다. 국립중앙도서관·국회 원문 구축사업 등 원문입력사업(AI-OCR 적용) 등이 진행되고 있고, 2021년부터 한국지능정보사회진흥원(NIA)에서는 인공지능(AI) 학습용 데이터 사업의 일환으로 필기체 및 인쇄체 관련 AI-OCR 과제가 진행되고 있다.

국가기록원의 기록물 관리지침을 기준으로 디지털화를 진행함으로써의 표준화된 데이터를 추출할 수 있다는 장점이 있지만 현업에서는 대국민 열람서비스 제공에 어려움을 호소하고 있는 실정이다.

기록물 분류를 통해 기록물은 철·건으로 구분되면 상세 내용은 건 단위로 디지털화를 진행하게 된다. 기본 색인 데이터는 검색이 잘되지만 본문 내용이나 첨부문서 내용 등의 경우 디지털화 이후 현재 운영되고 있는 표준기록관리시스템(RMS) 기반으로 서비스하게 되는데 색인 검색 과정에서 한계성이 있다. 물론 너무 많은 검색어가 있다 해서 검색의 효율성이 생기는 것도 아니다. 최근 검색엔진 기술 발달로 다양한 조건 검색이 가능하고, 더 정확하고 많은 검색 결과를 받아 볼 수 있다.

최근 이슈가 되고 있는 AI 기술을 적용한다면 기존 사업에서 디지털화한 이미지 자료를 AI-OCR 기술로 인식해 JSON, CSV, HTML로 추출할 수 있다. 특히 디지털 문서(이미지 파일, 이미지 PDF 등) 아카이빙이 가능하도록 추출된 데이터는 검색 가능 PDF로 변환해 원문 검색을 가능하게 함으로써 효율성을 높이는 기술이 개발됐다.

하지만 AI-OCR 성능을 높이기 위한 필수 요소로 AI 데이터셋을 확장 구축하고 관련 알고리즘의 개선을 진행해야 하는 과제는 지속돼야 하는 상황이다. 여기서 고려해야 할 중요 사항은 공공기관 특성상 과거에 예산을 투입한 중복사업 형태가 아니라 기존 이미지 데이터를 활용해서 확장사업 형태로 진행할 수 있다는 점이다.

또한 정보공개 시에는 개인정보 필터링이 필요한데 이 또한 AI 필터링 기술을 통해 '텍스트+이미지'까지 필터링해서 제공할 수 있어 행정의 효율성을 극대화할 수 있다.

지금까지 관행보다 최신 AI 기술 적용(인공지능 데이터셋 및 알고리즘 고도화)을 통해 디지털전환을 진행해서 시간과 비용을 단축하고 더 상세한 색인정보 구축으로 행정서비스 효율성 증가, 중복 예산 투입 우려 등 문제가 감소될 것이다. 국가행정 발전 및 대국민 서비스 확대를 위해서는 유관기관의 적극적인 협조가 필요하다.

한윤기 미디어그룹 사람과숲 대표 hanykee@humanf.co.kr