[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

📁관련 통계자료 다운로드유튜브 추천 알고리즘의 구성

콘텐츠에서 가장 중요한 건 좋은 콘텐츠를 만드는 일이라는 명제가 지배했던 시절이 있었다. 콘텐츠만 좋으면 봐줄 것이라는. 하지만 지금은 다소 바뀌었다. 좋은 콘텐츠는 여전히 중요하지만 그것만으론 부족하다. 콘텐츠 홍수를 넘어 '쓰나미의 시대'다. 매년 만들어지는 수많은 콘텐츠가 누적되고 있다. 내가 흥미를 가질 콘텐츠를 찾는다는 건 점점 힘들어진다. 플랫폼 회사는 사용자 관심에 기반을 둔 추천서비스를 운영하고 있다. 개개인에 맞춘 큐레이션을 해주는 셈이다.

추천 서비스에서 가장 많이 거론되는 회사가 유튜브와 넷플릭스다. 기계학습이 적용된 인공지능(AI)을 활용해 좀 더 정교하게 추천하기 위해 머리를 맞대고 있다. 원하는 영상이 화면에 떡하니 있을 때마다 궁금증이 생긴다. 어떤 기준으로 추천이 이루어지는지. 클릭을 유도하기 위한 영상 플랫폼의 추천 알고리즘은 어떻게 발전해왔을까.

김태우기자 tk@etnews.com

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

유튜브가 온라인 데이트 서비스로 출발했다는 사실은 이미 알려진 내용이다. 설립자는 자신이 원하는 연애 상대에 이야기를 찍어 올리고 이를 공유하는 공간을 만들려 했다. 하지만 처음 세웠던 기획 의도는 빛이 바랬고, 대신 영상을 올리기 좋은 공간이라는 판단에 동영상 공유 플랫폼 모습을 갖춰가기 시작했다. 다행히 반응은 좋았고, 서비스 개시 6개월 만에 시청자 수는 200만명으로 크게 늘어났다. 서비스가 시작된 지 15년이 지난 지금 세계 유튜브 월평균 이용자는 19억명이 되었다.

유튜브 안에서 영상을 만나는 방법은 크게 두 가지다. 검색해서 찾거나 아니면 플랫폼 추천을 받는 것. 검색은 어디까지나 사용자의 영역이다. 유튜브는 영상 추천에 집중했다. 한동안 추천 영상을 제공할 때 가장 중요한 요소는 조회 수였다. 조회 수가 높은 영상을 추천하니 영상을 클릭하는 비율도 높았다.

그러나 문제가 생겼다. 조회 수를 기준으로 영상을 추천하니 클릭을 유도하기 위한 낚시성 제목과 섬네일로 제작된 영상이 우후죽순 늘어난 것이다. 조회 수로 추천이 이뤄지는 것을 알아낸 채널 운영자가 이를 악용한 것이다.

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

클릭에는 성공했을지 몰라도 문제는 그 이후였다. 제목과 섬네일에 혹해서 영상을 재생한 이용자는 영상의 품질을 보고 실망했고 경험이 누적될수록 추천 영상에 대한 기대감은 하락했다. 이용자는 염증을 느끼기 시작했다. 7년간 이어진 조회 수 중심 추천 방식은 그렇게 생명력을 잃어갔다. 2012년 유튜브는 영상 추천 방식을 변경했다고 발표한다. 기존 조회 수 기반 추천은 사용자가 관심 가질 만한 영상을 추천하는 최선의 방법은 아니었다고 시인했다. 새롭게 핵심 요소로 삼은 것은 시청 시간이었다. 정확히는 영상을 클릭해 끝까지 시청하는 비율을 말한다.

시청 시간이 사용자 참여를 가장 잘 나타내는 지표라는 판단에 시청 시간을 기준으로 영상 우선순위가 매겨졌다. 제목과 섬네일에만 공을 들인 영상이라면 사용자가 오랜 시간 영상을 시청할 이유는 없다. 덧붙여 의도적으로 영상을 짧게 제작해 시청 시간 비율을 늘렸다고 우선순위가 높은 건 아니라고 못 박았다. 반대로 길게 제작된 영상이라고 불리하다고 생각하지 말고 그저 사용자가 좋아할 만한 영상 제작에 신경 쓰면 된다는 입장을 밝혔다.

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

지금과 같은 정밀한 추천 알고리즘이 구축된 건 2016년부터다. 유튜브는 기존 추천 알고리즘에 머신러닝을 도입하면서 개인화된 추천을 본격화한다. 유해 콘텐츠 검열도 강화한다. 추천 알고리즘이 혹시라도 유해한 영상을 추천하면 곤란하다. 이를 방치했다가는 플랫폼이 이런 콘텐츠를 적극 퍼뜨린 꼴이 된다.

유튜브에서 추천 시스템을 다뤘던 엔지니어 기욤 샬로는 가디언과의 인터뷰에서 유튜브 알고리즘이 영상 체류 시간에 집중된 추천을 하다 보니 가짜뉴스와 확증편향이 만들어지는 부작용이 있다고 폭로했다. 추천 알고리즘이 민주주의의 질서를 유지하고 건강한 정보를 양산하는 데 최적화돼 있지 않다고 말해 한때 논란이 일기도 했다.

최근 닐 모한 유튜브 최고제품책임자(CPO)는 유튜브의 유해성을 가르는 경계에 있는 영상을 걸러내기 위해 지난해에만 알고리즘을 30차례 넘게 수정했다고 밝혔다. 유튜브가 중요시하는 것은 '이용자 만족도'다. 사용자가 만족할만한 영상을 추천하고 불쾌감을 느낄만한 영상은 배제한다. 〃

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

구글이 자체 추천 알고리즘에 대해 상세하게 밝힌 적은 없다. 하지만 유튜브 추천 알고리즘을 분석한 결과를 종합해보면 공통된 부분은 있다. 유튜브가 영상의 우선순위를 매길 때는 △조회 수 △조회 수 증가 속도 △시청 시간 △좋아요·싫어요·댓글·공유 등 사용자 참여 정도 △참신성 △채널 내 영상 업로드 빈도 △세션 시간 △지역 등 다양한 요인을 고려하는 것으로 알려졌다. 참고로 세션 시간은 영상을 시청한 채널에서 다른 영상을 시청하거나 체류하는 시간을 말한다. 여기서 끝나면 부족하다. 보다 개인에게 맞춰진 추천을 위해 사용자가 시청하는 주제와 시청하지 않는 주제를 인지하고 과거 시청 데이터를 참고해 최종적인 추천 영상 목록이 완성된다.

한국언론진흥재단에서 발간한 연구보고서 '유튜브 추천 알고리즘과 저널리즘'에서는 △방송사와 같은 전통 언론사에서 제작한 영상 △길고 인기 키워드가 포함된 제목 △생중계 콘텐츠 등이 높은 우선순위를 받는 경향이 있다고 분석했다. 유튜브 이용자가 보는 영상 70%는 추천된 영상에서 발생했는데 유튜브 측에서도 이 사실은 인정했다.

넷플릭스는 어떨까. 약 1억9300만명 가입자를 보유한 넷플릭스는 유튜브와 결이 다른 서비스다. 하지만 둘 다 영상을 제공하고, 추천한다는 점은 닮아 있다. 넷플릭스 창업자 리드 헤이스팅스와 마크 랜돌프는 창업 초기부터 영상을 추천하는 노하우를 축적해왔다. 넷플릭스 시작은 DVD 대여 서비스였다. 서비스를 시작한 연도가 1998년이니 비디오를 대여하는 시대가 저물고 DVD 대여가 뜨는 시기였다.

넷플릭스는 개인화된 추천을 제공하기 위해 이때부터 자체적으로 고객의 DVD 대여 정보를 기반으로 영화를 추천하는 알고리즘을 구축해냈다. 알고리즘의 이름은 '시네매치(cinematch)'였다. 알고리즘의 궁극적인 목표는 사용자가 어떤 영화를 본 뒤 매기는 평점을 예측하는 것이었다. 기다릴 필요 없이 영상을 재생하면 바로 볼 수 있는 지금과 달리 DVD 타이틀을 주문해 집에서 받아보려면 며칠이 소요됐다. 다음에 보고 싶은 DVD를 빨리 만나보고 싶다면 미리 주문해야 했다. 추천 알고리즘은 이용자가 다음 영상을 선택하는 데 도움을 줬다.

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

이에 만족하지 않고 2006년에는 넷플릭스 프라이즈(Netflix Prize)라는 이름의 콘테스트를 개최, 영화 데이터베이스를 공개하고 추천 결과를 개선할 수 있는 알고리즘 경쟁을 벌이게 했다. 우승은 BellKor's Pragmatic Chaos 팀에게 돌아갔는데 추천 알고리즘을 약 10.06% 개선해냈다. 10%를 넘긴 다른 팀인 The Ensemble과 점수는 같았으나 10분 먼저 해답을 제시하면서 1등을 차지했다. 이때 개발된 알고리즘은 지금도 사용되는 것으로 알려져 있다.

스트리밍 서비스를 시작한 시기는 넷플릭스가 문을 연 지 약 10년이 지나서였다. 넷플릭스는 2007년 미국에서 영상 스트리밍 서비스에 첫발을 내디딘다. 이후 캐나다를 시작으로 서비스 지역을 전 세계로 확장해 현재 190개가 넘는 국가에서 넷플릭스가 서비스되고 있다.

넷플릭스는 콘텐츠 제작에도 투자하기 시작한다. 보고 싶은 콘텐츠가 넷플릭스에만 있다면 사용자가 구독 결제를 할 확률은 올라간다. 독점 콘텐츠를 제작하기 시작한 셈이다. 그리고 이렇게 확보한 구독자는 지루할 틈 없이 영상을 소비하게 만들어야 하는데, 이때 필요한 것이 영상 추천이다. 다음 달, 다다음 달까지 구독을 이어가게 만드는 힘은 여기서 나온다. DVD 대여 이용자와 스트리밍 서비스 이용자의 사용 패턴은 달라졌고, 서비스가 전 세계로 확대될수록 영상을 추천할 때 고려할 것도 늘었다.

넷플릭스는 자체 추천 알고리즘 방식에 대해 비교적 투명하게 공개하고 있다. 혹시라도 추천 시스템에 의혹을 품는 사람들이 있다면 궁금증이 어느 정도 해소될 것이다. 기본적으로 수집되는 사용자 정보로는 △좋아요 △선택하는 영상과 선택하지 않는 영상 △시청 시간대 △영상 시청 기기 등이 있다. 세세하게 들어가면 영상을 시청하다 되감거나 멈춘 지점, 끝까지 시청하는지 여부도 파악된다.

[테크리포트]유튜브·넷플릭스 추천 알고리즘 원리

이렇게 수집한 정보를 분석해 이용자를 분류한다. 비슷한 시청 패턴을 가진 사람들은 같은 그룹군에 묶는다. 사용자 행동 데이터가 기반이 된다. 넷플릭스 추천 시스템에는 특별한 방식이 하나 더 추가된다. 바로 영상에 태그를 붙이는 일이다. 모든 작업은 사람이 직접 영상을 보고 수행한다. 아직 AI보다 사람이 더 잘할 수 있는 작업이기도 하다. 가이드라인을 바탕으로 영상에는 적당한 태그가 붙게 되는데 '화려한 출연진' '우주 관련 영상'과 같은 특징들을 태그로 붙인다. 플랫폼 사용자로부터 수집한 정보와 영상에 붙은 태그 정보는 머신러닝을 적용한 알고리즘을 이용해 추천이 작동하게 된다.

넷플릭스도 추천 알고리즘으로 논란이 된 바 있다. 출연진이 주로 백인인 영화를 흑인 사용자에게는 흑인이 들어간 섬네일을 넣어 추천한다는 문제가 제기됐다. 이에 넷플릭스는 머신러닝 알고리즘에 의한 결과일 뿐이지 나이대나 인종, 성별과 같은 정보는 수집하지 않는다고 해명했다.

영상 플랫폼이지만 성격이 전혀 다른 유튜브와 넷플릭스는 지속해서 추천 알고리즘 개선을 위해 노력하고 있다. 사용자가 클릭할 가능성이 높은 영상을 추천할수록 더 오래 플랫폼에 머물게 된다. 추천 알고리즘이 플랫폼을 성장시키는 핵심 요소인 셈이다.