슈퍼브에이아이, 한글 글자체 AI 데이터세트 공개

인공지능(AI) 스타트업 슈퍼브에이아이는 국내 최초로 한글 광학문자판독(OCR) 인공지능(AI) 학습용 데이터 780만개 글자를 구축, AI 허브에 공개했다.

슈퍼브에이아이는 한국정보화진흥원(NIA)에서 주관하는 2019년 한국어 글자체 이미지 AI 데이터 구축 사업에 참여한 업체다.

AI 개발을 위한 △간판, 도로 표지 등 이미지 내 130만개 글자 △인쇄체 280만개 글자 △ 손글씨체 370만개 글자 등 총 780만개 글자 이미지 데이터를 제작했다. 한국어 특성을 살린 OCR AI 학습용 데이터 세트로 한글 자모 조합 총 1만1172자를 포함한다.

이번에 공개된 데이터 세트는 AI 허브 플랫폼에서 다운로드가 가능하다. 누구나 대량의 한글 OCR 학습 데이터를 내려 받아 한글 인식과 이미지 기반 검색 등 AI 모델 및 서비스 개발에 활용할 수 있다.

현재 글로벌 기업(구글 등)이 제공하는 OCR 활용 인지 서비스에 한국어로 된 글자체 이미지 데이터 세트가 없어 기관·기업의 연구개발(R&D)에 차질이 있었다. 세계적으로 전통적인 알고리즘이 아닌 딥러닝 기반의 OCR 기술을 사용하는 추세여서 한글 글자체에 대한 공개된 학습용 데이터 세트가 필요하다는 게 회사 측 설명이다.

슈퍼브에이아이는 데이터 가공, 관리와 분석이 가능한 슈퍼브에이아이 스위트를 도입해 AI 개발에 즉시 사용 가능한 양질의 데이터 세트를 구축했다. 지난해 12월에 출시된 기업용 소프트웨어(SW)로, 데이터 애너테이션을 쉽게 하는 기능과 반자동 애너테이션을 지원하는 AI 모델이 포함된 종합 머신러닝 데이터 플랫폼이다.
김현수 슈퍼브에이아이 대표는 “AI 학습 데이터는 대부분 해외에서 제작된 오픈소스 데이터세트에 의존, 국내 시장에 맞는 데이터세트는 가뭄”이라면서 “슈퍼브에이아이가 국산 데이터세트를 제작해 한국 AI 산업 발전을 이끌겠다”고 말했다.

슈퍼브에이아이, 한글 글자체 AI 데이터세트 공개

김시소기자 siso@etnews.com