[대한민국희망프로젝트]〈663〉데이터 라벨링

최근 뉴스에서 많이 언급되는 단어가 '한국판 뉴딜'입니다.

올해 4월 발표된 한국판 뉴딜은 코로나19로 어려워진 경기를 회복하기 위해 국가적으로 진행하는 프로젝트입니다. 디지털을 기반 일자리 창출과 경제 혁신 가속화에 중심을 두고 있습니다. 디지털 인프라 구축, 비대면 산업 육성, 사회간접자본(SOC) 디지털화 등 3대 영역을 강조하는 내용으로 향후 2~3년간 집중 추진된다고 합니다.

그 중에서도 특히 자주 거론되는 것이 인공지능(AI)을 위한 데이터 라벨링(Data Labeling) 입니다. 시장정보 조사업체 커그니리티카에 따르면 데이터 준비 솔루션과 관련한 AI와 기계학습 시장 규모는 2018년 5억달러를 넘었습니다. 2023년에는 12억달러까지 성장할 것으로 보인다고 하는데요. 데이터 라벨링이 AI 산업 육성에도 도움이 되고 일자리 창출 효과가 크다고 하는데, 과연 데이터 라벨링은 무엇이고 어떻게 활용되는지 알아봅니다.

Q:데이터 라벨링은 무엇인가요?

A:사람은 눈으로 사물을 인식하고 이 사물이 무엇인지 알아낼 수 있습니다. 사물이 사진이나 영상 속에 있더라도 얼마든지 인지가 가능합니다. 하지만 AI는 처음 어떤 사물을 보았을 때 이것이 무엇인지 알 수가 없습니다.

예를 들어 도로 사진 속에 '신호등'과 '자동차'가 있다면 이런 형태의 사물이 '신호등'이고 '자동차'라고 사람이 표시를 미리 해줘야 AI가 비로소 그것을 인지할 수 있는 것입니다. 문제는 우리가 살아가는 세상에 존재하는 사진과 동영상 같은 수많은 비정제 데이터들은 AI가 바로 학습할 수가 없다는 것입니다. 그래서 AI 학습할 수 있도록 사람이 먼저 만들어 주는 과정을 바로 데이터 라벨링이라고 합니다.

Q:데이터 라벨링은 인공지능 산업과 무슨 관계가 있나요?

A:AI도 학습이 필요합니다. 사람이 시험공부를 할 때 기출문제나 연습문제를 많이 풀면 유사한 문제가 출제됐을 때 쉽게 답을 찾을 수 있듯이 AI도 문제를 많이 풀어야 학습이 됩니다. 데이터 라벨링이 된 '데이터 세트'는 AI가 공부할 수 있는 학습 자료 역할을 합니다.

그렇게 때문에 상황에 맞지 않는 데이터 세트나 양과 깊이가 부족한 데이터 세트는 AI 학습에 도움을 줄 수 없습니다. 우수한 AI 개발을 하기 위해서는 결국 이 데이터 세트가 얼마나 잘 만들어져 있는지가 매우 중요한 사항입니다. 만들어진 데이터를 관리하고 분석해 AI 개발에 바로 도입될 수 있도록 하는 것이 결국 AI 개발의 숨은 핵심이라고 할 수 있습니다.

Q:데이터 라벨링은 누가 어떻게 하는 건가요?

A:현재 기초적인 데이터 라벨링은 대부분 사람의 손으로 이루어집니다. 사람이 직접 사진이나 영상을 보고 이것이 '의자'이고 이것이 '침대'라고 표시합니다. 수많은 의자와 침대 데이터가 쌓이면 AI는 지금까지의 학습 결과에 따라 다른 데이터를 봐도 의자와 침대를 식별할 수 있게 됩니다. AI 개발에 꼭 필요한 작업이지만 사람이 하나하나 이 일을 한다는 것은 시간이 많이 소요되기 때문에 AI 개발에 있어 어려운 점 중 하나로도 꼽히고 있습니다. 우수한 AI 인력이 데이터 준비를 하는 데 많은 시간을 뺏겨 AI 개발의 효율성을 떨어뜨리는 것이 해결 과제로 지목되기도 합니다.

데이터라벨링 이미지. 사진=슈퍼브에이아이
데이터라벨링 이미지. 사진=슈퍼브에이아이

Q:데이터 라벨링을 효율적으로 할 수 있는 방법은 무엇인가요?

A:데이터 라벨링에는 사람의 초기 작업이 필수입니다. 현재 AI 개발자들은 데이터 준비 작업에만 전체 업무의 80% 정도를 할애합니다.

때문에 데이터 라벨링 플랫폼을 만드는 기업도 나왔습니다. 대표적인 예가 슈퍼브에이아이입니다. 이 회사는 데이터 라벨링과 같은 전처리 작업뿐만 아니라 개발자들을 위한 데이터 구축, 관리, 분석 등 기계학습 데이터와 관련된 모든 작업을 통합 지원하는 생산성 플랫폼 '스위트(Suite)'를 개발했습니다.

스위트에는 자체 인공지능을 통한 '오토 라벨링' 기능이 있어 수작업 데이터 라벨링의 범위를 3분의 1 수준으로 줄여줍니다. 그렇게 때문에 동일한 인력과 시간, 비용으로도 3배 많은 작업을 할 수 있게 됩니다. 이러한 플랫폼은 작업한 데이터를 한 프로젝트 파일에 저장하고 분석할 수 있어 AI 개발자들이 협업하는 데 큰 도움을 줍니다.

Q:국내 데이터 라벨링 산업 전망은 어떤가요?

A:한국형 뉴딜로 인해 데이터 라벨링 산업은 폭발적인 성장을 할 수 있을 것으로 예측됩니다. 지난 3일 정부가 발표한 내용에 따르면 'AI 학습용 데이터 구축' 사업의 추경 예산은 2925억원으로 지난해 예산 대비 15배가 늘었습니다. 이에 따라 관련 기업도 많이 생겨날 것으로 보입니다. 특히 데이터 라벨링 인력을 운용하는 용역 기업이 늘어날 것으로 생각해볼 수 있습니다.

이런 데이터 라벨링 용역 기업들은 은퇴한 시니어나 경력 단절이 된 여성을 많이 고용할 수 있어 사회적 기업 역할도 함께 할 수 있을 것입니다. 데이터 라벨링은 우리나라 AI의 한 축을 담당하는 새로운 산업군으로 성장할 것으로 기대됩니다.

다만 단순 라벨링 작업에서 그치는 것이 아닌 더욱 고도화된 기술로 동일한 비용과 시간 내에서 AI 개발을 위한 더욱 효율적인 데이터 구축과 관리 방법을 구현하는 것이 가장 중요합니다.

[대한민국희망프로젝트]〈663〉데이터 라벨링

◇데이터이코노미, 서울대 법과경제연구센터 지음, 한스미디어 펴냄

서울대 법과경제연구센터가 제시하는 인공지능과 4차 산업혁명 시대 상생과 공존 전략을 소개한 책이다. AI 발전, 적용 현황과 기업과 사회가 준비해야 할 것들을 개괄적으로 설명했다.

[대한민국희망프로젝트]〈663〉데이터 라벨링

◇인공지능 시대의 비즈니스 전략-누가 AI 환경을 지배할 것인가!, 정도희 지음, 더퀘스트 펴냄

실제 인공지능 관련 기술들을 현업에 적용하는 전문가가 기술 콘셉트를 쉽게 전달하고, 오해를 바로잡아준다. 기업 임직원에게는 기술을 어떻게 활용하면 비즈니스와 업무에 실질적인 도움이 될지 가이드를 제시한다.

김시소기자 siso@etnews.com