데이터가 부족하다. 2023년 5월 오픈AI의 샘 올트먼은 인공지능(AI) 기업이 인터넷에서 실행 가능한 모든 데이터를 소진할 것이라고 밝힌 바 있다. AI 개발 및 서비스 제공을 위해서 데이터가 필수적인데, 거의 대다수의 AI 기업들은 데이터 기근 현상을 겪고 있다. 데이터 생성 속도보다 데이터 소진 속도가 더 빠르기 때문이다.
그래서 AI 기업들은 새로운 데이터 확보에 사활을 걸고 있다. 더 많은 데이터가 더 좋은 AI를 만들 수 있다는 견고한 믿음이 있고, 확장법칙 등으로 알려진 연구 결과도 이와 다르지 않기 때문이다.
AI 개발용으로 투입되는 데이터 양도 폭발적으로 증가하고 있는데, 2020년 GPT3 모델의 경우 3000억개의 토큰이 투입되었지만, 2022년 딥마인드의 친칠라(Chinchilla) 모델의 경우 1조4000억개의 토큰을 투입되었으며, 2023년 중국의 스카이워크 모델은 3조2000억개의 토큰이 투입된 바 있다.
종래 위키 페이지와 공개된 웹 페이지 등이 중요한 데이터원이었지만 이걸로 부족하다는 점에 모두 공감하고 있다. 그래서 데이터 확보의 새로운 해결책으로 나온 방법이 나오고 있는데, 예컨대 이른바 자체 모델에서 나온 데이터의 합성을 통한 데이터 확보 방안도 있고, 훨씬 적은 양의 정보를 사용한 개념 간의 보다 스마트한 연결 방안 등이 논의되고 있지만, 아직까지는 어느 방법도 그 신뢰성에 대하여 입증된 적이 없다.
이런 새로운 데이터 확보 방안과 별개로 더 많은 데이터원을 확보하는 방식의 고전적인 데이터 확보 방안이 아직은 주류라 할 수 있다.
고전적인 데이터 확보 방안은 저작권, 개인정보 등 법적 허들을 푸는 데 많은 시간과 비용이 들어간다. 실제로 챗GPT는 다수의 언론사, 작가 등으로부터 저작권 소송을 진행 중에 있다. AI 기업의 이러한 데이터 확보 방식이 저작권법상 공정한 이용(fair use)이라는 공식적인 확인이 나오지는 않았지만, AI 기업들은 언젠가는 법원으로부터 저작권법상 공정한 이용이라는 확인을 받을 것이라고 낙관하고 있는 것 같다.
구글은 구글독스(Google Docs)와 같은 사무도구, 구글 맵에 있는 각종 정보 등에 있는 소비자 데이터를 사용할 수 있는 작업을 진행 중이고, 메타 역시 장편 작품을 조달하기 위해서 다수의 판권 확보나 기존 출판사 인수 등의 공격적인 조치를 논의하고 있다.
챗GPT로 널리 알려진 오픈AI 역시 기존 데이터가 소진되어 가면서 더 많은 고품질의 학습 데이터를 갈망하고 있는바, 급기야 유튜브 동영상의 음성 대본을 추출하는 음성 인식 도구 위스퍼(Whisper)를 개발했다. 수백만 시간의 재생 시간을 가지는 유튜브 동영상의 음성 대본을 통해서 더 앞선 LLM 모델을 개선하겠다는 것이다.
그런데 이 소식을 접한 유튜브의 입장은 오픈AI의 조치에 대하여 우호적이지 않은데, 구글 대변인 맷 브라이언트는 “우리의 robots.txt 파일과 서비스 약관 모두 유튜브 콘텐츠의 무단 스크랩이나 다운로드를 금지한다”라고 인터뷰를 해, 상호 갈등의 양상을 보이고 있다. 실제로 유튜브 약관 내용을 보더라도 자동화된 수단에 의한 동영상 접근이나 별도의 독립적인 애플리케이션에 의한 동영상 사용을 금지하고 있다. 거대 글로벌 기업 사이의 법적 분쟁으로 번질 수도 있을 것으로 보인다.
기업 간 AI 경쟁은 기업 간 데이터 경쟁으로 변질되어 가는 느낌이다. 하여튼 새로운 데이터 확보가 미래의 사활을 좌우하고 있음은 분명한 사실인 바, 우리나라도 데이터 확보 방안에 대하여 좀더 적극적인 정책을 펼쳐 가는 게 필요하다고 본다.
김경환 법무법인 민후 변호사