[기고]데이터 셋 구축 자동화로 인공지능 생태계 활성화 기대

[기고]데이터 셋 구축 자동화로 인공지능 생태계 활성화 기대

인공지능(AI)은 사물인터넷(IoT), 5세대(5G) 이동통신, 모바일 기술 등 첨단 기술과 접목돼 혁신적 결과물을 만들고 있다. AI가 탑재되는 순간 의료와 제조, 엔터테인먼트, 농업 등 우리 삶의 많은 영역에서 상품과 서비스에 질적인 변화가 나타난다. 최근 가장 주목받는 키워드인 메타버스 역시 AI 없이 존재하기 어렵다.

생활에 AI 기술을 적용하기 위해서는 정제된 양질의 데이터 셋을 충분히 확보하고 있어야 한다. 이러한 대용량 데이터 셋 구축 작업은 AI 모델 학습에 필요한 이미지, 영상, 오디오, 텍스트 등 원시 데이터를 수집하는 것에서부터 시작한다.

이후 데이터 수집 과정에서 발생하는 오류나 잡음 제거, 동일 규격으로 원본 데이터 표준화, 불필요하거나 중복된 데이터 제거, 개인정보 보호를 위해 데이터 비식별 작업 등과 같은 전처리 과정을 통해 원시 데이터를 데이터 라벨링을 위한 원천 데이터로 정제한다.

마지막으로 라벨링된 데이터에 포함된 불완전한 정보 검수를 통해 오류가 있는 라벨링 정보를 수정 또는 제거하고, 누락된 라벨링 작업을 추가로 수행하는 작업을 거쳐 데이터 셋을 구축한다.

전체 AI 데이터 셋 구축 프로젝트에 소요되는 시간 대부분은 데이터를 수집, 정제 및 라벨링하는 작업에 평균적으로 75%의 리소스가 소요되는 상황이다. 이는 AI 학습 데이터 구축에 시간 및 비용이 많이 발생한다는 것을 의미한다.

이러한 데이터 셋 구축 작업에 AI 기반 자동화 기술을 적용하면 작업 시간과 비용을 줄여서 생산성을 높일 수 있다. 또한 자동으로 데이터의 신뢰성, 보안, 개인 정보보호 기준 준수, 정확성, 공정성 및 견고성을 함께 확보할 수 있다.

우선 수집된 데이터에 대한 다양한 전처리 작업을 거친 후 개인정보 등 민감한 정보를 거르기 위한 비식별화 작업이 일어나야 한다. 비전 데이터의 경우 자동차 번호판, 사람의 얼굴 등은 모두 비식별화 대상이다. 이러한 비식별화를 수동으로 처리하는 것은 비용이 많이 발생할 수 있으므로 비식별화 작업의 효율성을 높이기 위해 비식별 대상을 학습한 인공지능 모델을 활용할 수 있다. 즉 AI 모델이 비식별화 작업을 수행하고, 그다음에 작업자가 AI 모델이 비식별화한 작업을 검토 및 수정하는 방식으로 작업자 업무 부담을 줄여서 비식별화 작업의 생산성을 높이고 비식별화의 품질을 담보할 수 있다.

가장 수작업이 많이 들어가는 라벨링 작업을 수행해야 할 전체 데이터 셋 중에 1~5% 정도의 데이터 셋을 수동으로 진행, 기존에 모델이 존재하지 않는 경우는 해당 데이터 셋 자동 가공을 위한 초기 인공지능 모델을 학습시킨다. 이렇게 학습한 인공지능 모델을 활용하여 자동화된 라벨링 결과를 얻을 수 있다.

이후 라벨링이 잘못된 데이터의 경우 작업자가 검수해서 라벨링 데이터를 교정한다. 교정 작업이 완료되면 라벨링되어 축적된 데이터 셋을 활용해 지속적인 재학습을 통해 모델을 고도화한다. 라벨링 과정에서 사람이 교정한 데이터 셋으로 학습한 AI 모델을 활용해 데이터 라벨링 반자동화 과정을 거침으로써 작업자의 업무 부담을 줄이면서 정확성을 높일 수 있다.

이처럼 대규모 고품질 데이터 셋을 구축하기 위한 자동화 기술 도입은 이제 필연적으로 고려해야 하는 요소이며, AI 서비스 개발이 필요한 기업은 AI 모델 개발과 자동화 등 다양한 효율화를 적극적으로 검토해야 한다. 또한 고품질의 데이터 셋 구축을 위한 자동화를 위해서는 정교한 라벨링을 할 수 있는 전문 인력이 반드시 필요하다는 것도 잊지 않아야 한다. AI 데이터 라벨링의 자동화를 통해 데이터 셋의 품질을 담보하기 위해서는 전문적 라벨러의 지속적인 피드백이 필요하기 때문이다.

AI가 자동으로 지속적인 모니터링, 피드백 및 재학습을 통해 새로운 데이터가 데이터 셋에 추가돼 더욱 강력하고 정확하며 공정한 기술을 만들고 있다. AI 모델을 활용한 자동화 기술을 통해 양질의 대규모 데이터 셋이 구축되고 더욱 전문적 데이터 라벨러가 양성되면서 우리나라 AI 생태계가 더욱 활성화되기를 기대해 본다.

윤석원 테스트웍스 대표 cs@testworks.co.kr



최호기자 snoop@etnews.com