[신년특집] 디지털 전환 현장을 가다 <중>크라우드웍스, AI 학습용 데이터 가공 핵심 거점

텍스트·사진·음성 등 비정형 데이터
AI가 인식할 수 있게 '라벨링' 수행
'투잡' 가능해 직장인 비율 43.8%
AI 서비스 늘며 라벨러 수도 점차 증가

강남구 역삼동에 위치한 크라우드웍스 사무실 전경 (사진=크라우드웍스)
강남구 역삼동에 위치한 크라우드웍스 사무실 전경 (사진=크라우드웍스)
📁관련 통계자료 다운로드크라우드웍스 데이터 라벨러 구성

#인공지능(AI) 발전과 함께 주목받는 것이 '데이터 라벨링'이다. 데이터 라벨링은 AI 지도학습에 필요한 자료를 수집·분류·가공하는 작업을 말한다. 텍스트, 사진, 그림, 음성 등 비정형 데이터를 AI가 인식할 수 있는 형태로 가공해 AI가 학습할 '교과서'를 만드는 일이다. '데이터 라벨러'는 데이터 라벨링 작업을 하는 사람이다. AI 기술 고도화를 위해 학습에 필요한 데이터를 정교하고 정확하게 수집·가공하는 데이터 라벨러 역할이 매우 중요해졌다.

크라우드웍스는 AI 학습용 데이터 수집·가공 전문 플랫폼이다. 기업이 수집하거나 가공하고 싶은 데이터를 의뢰하면 크라우드웍스는 크라우드소싱 방식으로 등록된 데이터 라벨러에게 프로젝트를 공개하고, 데이터 라벨러는 자신이 참여하고 싶은 프로젝트를 골라 데이터 라벨링 작업을 수행한 후 대가를 받는다. AI를 활용한 디지털 전환의 핵심 거점 중 하나인 크라우드웍스를 찾았다.

◇잘 나가는 데이터 라벨러, 月 600만원 수입 올리기도

현재까지 크라우드웍스에 등록된 데이터 라벨러 수는 19만5000명이 넘는다. AI 산업 발전과 함께 데이터 라벨링이 주목받으면서 라벨러 수도 빠르게 늘고 있다. 현재까지 크라우드웍스가 진행한 프로젝트는 700건 이상, 이를 통해 6000만개 이상 데이터를 수집·가공했다.

'투잡'이 용이한 특성 덕분에 데이터 라벨러 중 직장인이 43.8%로 가장 많은 비중을 차지한다. 전업주부 및 구직자(27.1%), 학생(17.3%), 기타(11.8%) 등이 뒤를 잇는다. 성별은 남성이 61%로 여성(39%)보다 많다. 연령은 20대(38%)와 30대(33%)가 가장 많고 40대는 16%, 50대 이상도 13%를 차지한다. 전체 데이터 라벨러 중 자격증 보유자는 33.2%를 차지한다. 특히 법률·의료 등 전문 영역은 데이터 라벨링 보수도 더 높기 때문에 의사·변호사들도 투잡에 뛰어드는 경우가 많다.

<표>크라우드웍스의 데이터 라벨러 구성

데이터 라벨러 수입은 전업인지 부업인지의 여부와 프로젝트별로 요구되는 품질, 라벨러 스펙, 작업물 난이도 등에 따라 천차만별이다. 예를 들어 고양이 사진에 이름표를 붙이는 작업과 흉부 엑스레이 이미지에서 질병을 진단하는 작업은 당연히 비용에서 차이가 있을 수밖에 없다.

크라우드웍스에 따르면 현재까지 누적 기준 가장 높은 수입을 올린 데이터 라벨러는 6000만원 이상 수익을 창출했다. 또 최근 한 달간 수입이 가장 많은 라벨러는 600만원가량 수익을 냈다.

크라우드웍스 플랫폼의 장점은 19만명에 달하는 인력을 크라우드소싱해 대량의 데이터를 빠른 속도로 가공·수집할 수 있다는 점이다. 하지만 프로젝트에 불특정 다수가 참여하기 때문에 품질 문제가 발생할 우려도 있다. 잘못된 데이터를 학습한 AI는 엉뚱한 추론을 내놓을 수밖에 없다. 작업자의 경력이나 능력이 제각각이고 프로젝트별로 데이터 종류도 상이하기 때문에 이를 체계적으로 관리하는 것이 중요한 과제다. 이런 문제를 크라우드웍스는 100% 전수 검수로 해결하고 있다. 이를 통해 데이터 품질 99%를 보증한다.

크라우드웍스는 데이터 라벨러 인력 양성을 위해 크라우드웍스 아카데미라는 교육 과정을 제공하고 있다. (사진=크라우드웍스)
크라우드웍스는 데이터 라벨러 인력 양성을 위해 크라우드웍스 아카데미라는 교육 과정을 제공하고 있다. (사진=크라우드웍스)

◇라벨링된 데이터 어디에 쓰이나

자율주행차, 음성인식 AI, 텍스트 자동완성, 광학문자인식(OCR) 등 AI를 활용하는 제품과 서비스가 많아지면서 데이터 수집·가공 수요 또한 급속도로 늘고 있다. 라벨링된 데이터는 AI 학습 외에도 각 산업 분야에서 서비스 개발 및 고도화, 자체 활용 등 다양한 목적으로 사용된다. 특히 최근에는 코로나19가 언택트 산업 발전을 가속화 시키면서 언택트 분야에서 AI 학습용 데이터 수요가 늘고 있다.

예를 들어 홈트레이닝, 온라인 댄스강의, 온라인 골프강의 등 비대면 강의에서 AI 튜터가 수강생의 허리, 무릎, 등 특정 신체 부위를 인식하고 어디서 잘못된 동작을 하고 있는지 분석을 하기 위해서 수백만개 디지털 스켈레톤 추출이 필요하다.

최근 진행된 '딥페이크 영상 수집 프로젝트'는 딥페이크 방지 기술을 개발하는데 활용된다. 참여자가 지문을 읽거나 질문에 대답하는 영상을 얼굴 위주로 촬영했다. 100초에 이르는 문장 열 개를 150차례 반복했다. 이렇게 수집된 영상은 합성 데이터를 탐지·검출하는 AI 기술 개발을 위한 학습용 데이터로 활용된다. 진짜 영상을 확보한 뒤 일부러 변조해 데이터 세트를 구성한다. 영상을 함께 AI에 입력하고 AI가 스스로 차이를 알아낼 수 있도록 학습, 훈련시키게 된다.

크라우드웍스 플랫폼에 게시된 프로젝트들을 살펴보면 최근 기업들이 관심을 가지고 있는 분야를 알 수 있다. 예를 들어 자유로운 대화를 수집하는 작업은 AI 스피커 개발에 활용될 수 있다. 대만어 이미지를 보고 텍스트를 전사하는 대만어 OCR처럼 특정한 외국어 스킬을 요구하는 프로젝트도 있다. 주어진 본문에서 글쓴이가 작성한 글의 의도와 핵심 문구를 입력하거나 생성된 요약문이 원문 요약으로 적합한지 판단하는 텍스트 관련 프로젝트도 다수다. 수술실 소견 음성 수집 같은 전문 분야 작업자가 필요한 프로젝트도 있다.

최근 데이터 라벨링 수요가 늘어나면서 전문 회사들도 많이 생겨나고 있다. 크라우드웍스는 많은 작업자 수와 시스템을 토대로 차별화하는 동시에 100개 이상 특허를 출원하며 기술적 진입장벽을 높이고 있다. 프로젝트가 시작해서 종료될 때까지, 회원이 가입할 때부터 데이터를 어떻게 분리할지, 작업자·검수자 배치 등 세분화된 분야에 모두 특허가 걸려있다.

크라우드웍스 관계자는 “19만여명 작업자 행동 데이터가 크라우드웍스 자산이자 경쟁력으로 플랫폼 자체는 카피할 수 있지만, 방대한 작업자의 행동데이터는 따라할 수 없다”면서 “이 데이터를 기반으로 작업자를 평가할 수 있는 평가 지표를 구축해 디지털 휴먼 리소스 플랫폼으로 거듭나는 것이 궁극적인 목표”라고 밝혔다.

<표>데이터 가공 영역 예시

◇'데이터 라벨러'가 되려면?

크라우드웍스는 데이터 라벨러 인력 양성을 위해 '크라우드웍스 아카데미'라는 교육 과정을 운영한다. 아카데미는 이론 강의와 실습 훈련으로 구성된다. 동영상을 통해 기초 이론 수업을 진행하고 그 이후 실무에 필요한 바운딩·태깅 기본 실습과 퀴즈를 진행한다. 이론 수업과 퀴즈를 통과한 작업자만 라벨링 프로젝트에 참여할 수 있으며, 프로젝트에 따라 실습훈련 통과자들을 선별해 모집하기도 한다. 데이터 라벨링을 한 번도 해보지 않은 초급자를 위한 커리큘럼부터 프로젝트 관리자를 위한 고급 강좌까지 다양한 프로그램을 마련했다.

이론 강의와 실습 훈련 과정을 이수한 후 프로젝트가 모여 있는 페이지로 가서 본인이 하고 싶은 프로젝트를 선택, 가이드를 잘 숙지하고 작업에 참여하면 된다. 작업한 결과물은 검수자가 검수하는데 기준을 충족하지 못하면 반려된다. 검수가 통과되면 건당 포인트를 받을 수 있고 포인트가 일정액 이상 되면 현금화할 수 있다. 누적 프로젝트에 참여한 횟수가 많아지고 등급이 올라갈수록 참여할 수 있는 프로젝트도 많아지고 단가도 올라간다.

데이터 라벨링 작업은 크게 이미지 바운딩, 텍스트 태깅, 데이터 수집(영상, 이미지, 음성) 등 세 분류로 나뉜다. 대표적인 작업 중 하나인 이미지 바운딩이랑 전체 이미지에서 정해진 대상을 마우스로 드래그해서 영역을 지정해주는 작업이다. 텍스트 태깅은 제시된 지문을 읽고 질문의 답을 찾아 마우스로 드래그하는 프로젝트다.

한 데이터 라벨러가 크라우드웍스 플랫폼에서 이미지 바운딩 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스)
한 데이터 라벨러가 크라우드웍스 플랫폼에서 이미지 바운딩 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스)
한 데이터 라벨러가 크라우드웍스 온라인 플랫폼에서 텍스트 태깅 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스)
한 데이터 라벨러가 크라우드웍스 온라인 플랫폼에서 텍스트 태깅 데이터 라벨링 작업을 하고 있다. (사진=크라우드웍스)

라벨러로 시작해 경력과 전문성을 쌓고 전문 라벨러 혹은 중간 관리자가 되는 경우도 있다. 오랫동안 보장된 품질의 작업을 해온 라벨러는 검수자로 활동할 수 있는 기회가 주어진다. 작업자의 작업 데이터를 검수하는 역할을 한다. 일반적으로 작업자는 프로젝트당 작업 할당량이 존재해 1인당 참여 가능한 작업 시간이 정해져 있다. 반면에 검수자는 작업 완료된 전체 데이터에 대한 검수를 담당하기 때문에 작업자 대비 업무시간이 긴 편이다. 동일한 프로젝트를 기준으로 통상 시급은 검수자보다 작업자가 높은 편이지만 업무 가능 시간을 고려하면 전체 보수는 검수자가 높은 편이다.

데이터 라벨러는 이 직업의 장점으로 편한 시간에 원하는 장소에서 언제 어디서든 일할 수 있다는 점과 각자 관심 분야에 따라 원하는 일을 선택할 수 있다는 점을 꼽는다.

크라우드웍스에서 활동하는 한 데이터 라벨러는 “프로젝트 매니저 관리 아래 채팅방에서 마치 팀 프로젝트를 하듯 공동의 프로젝트 미션을 수행하며 성취감을 맛볼 수 있다는 것이 장점”이라면서 “앞으로 AI 시대에 이러한 데이터 구축 및 가공 업무가 더욱 중요해질 것으로 전망되고 내가 수집한 자료를 기반으로 AI 서비스가 탄생한다는데 자부심도 느낀다”고 말했다.

이미지에서 키포인트를 추출하는 데이터 라벨링 프로젝트 사례 (사진=크라우드웍스)
이미지에서 키포인트를 추출하는 데이터 라벨링 프로젝트 사례 (사진=크라우드웍스)

[인터뷰]이아영 매니저 “바리스타에서 데이터 라벨러로 '제2의 직업' 찾았죠”

이아영 크라우드웍스 프로젝트매니저 (사진=크라우드웍스)
이아영 크라우드웍스 프로젝트매니저 (사진=크라우드웍스)

“시간과 장소에 제약이 없어 업무 자유도가 굉장히 높다는 것 외에도 인공지능(AI) 산업 발전에 기여할 수 있는 기회가 있다는 점도 의미 있는 부분입니다.”

이아영 크라우드웍스 매니저는 데이터 라벨링 아르바이트로 시작해 경력을 쌓아 프로젝트 매니저로 취업한 사례다.

그는 지난 2019년 말 카페에서 바리스타 일을 하다가 추가 수익을 낼 수 있는 '제2의 직업'을 찾게 됐다. 그러던 중 크라우드웍스 관련 블로그 글을 접하게 됐고 노트북만 있으면 언제 어디서든 가능하다는 말에 가입하면서 데이터 라벨러 아르바이트를 시작하게 됐다.

데이터 라벨링에 대한 지식이 전혀 없었지만 당시 오프라인 교육을 통해 바운딩, 키포인트 추출, 텍스트 요약 등에 대해 배울 수 있었다. 이후 시간이 날 때마다 플랫폼에서 원하는 프로젝트를 찾아 작업을 시작하게 됐다.

지난해 3월에는 단기 음성챗봇 프로젝트와 콜센터 전사 작업 프로젝트에 참여했다. 이후 오랜 라벨링 경험으로 지난해 8월 '검수자' 자격을 획득했고 10월 직접 고용 형태로 전환돼 현재 크라우드웍스에서 프로젝트 운영과 라벨러 관리 업무를 지원하고 있다.

이아영 매니저는 “데이터 라벨러의 가장 큰 장점은 언제 어디서든 휴대폰이나 PC만 있으면 일할 수 있다는 점”이라며 “시간과 장소가 정해져있는 다른 아르바이트에 비해 자유도가 굉장히 높기 때문에 나이와 본업에 관계없이 누구나 도전할 수 있다”고 설명했다.

[신년특집] 디지털 전환 현장을 가다 &lt;중&gt;크라우드웍스, AI 학습용 데이터 가공 핵심 거점

[신년특집] 디지털 전환 현장을 가다 &lt;중&gt;크라우드웍스, AI 학습용 데이터 가공 핵심 거점


정현정기자 iam@etnews.com