[ET 시론] 생성형 AI에서 데이터 이용 과제

이성엽 고려대 교수
이성엽 고려대 교수

생성형 인공지능(AI)은 문장을 생성(Generative)하는 모델로서 사전학습(Pre-trained)을 통해 훈련을 받았으며, 트랜스포머(Transformer)라는 구조에 기반한 AI 언어모델이다. 생성이란 문장을 사람처럼 만들어낸다는 것이고, 사전학습이란 많은 데이터를 사전에 습득했다는 것이며, 트랜스포머란 단어 간 연관성 파악이 가능한 혁신적 심층신경망이라는 것이다.

이처럼 생성형 AI 특성 중 하나는 인터넷에 공개된 대규모 데이터를 학습한다는 점이다. 크롤링 등 방식으로 대규모 데이터를 수집하거나 공개된 데이터를 데이터셋으로 구축해 지속적으로 학습한다. 그런데 문제는 이 과정에서 필연적으로 데이터의 법적 특성에 따라서는 데이터 이용이 적법한 것인지 여부가 이슈가 된다는 것이다.

데이터란 존재형식을 불문하고 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미한다. 이런 데이터 중 일부는 특별한 법적 보호를 받는다. 대표적인 것으로 개인식별성을 지닌 개인데이터의 경우 프라이버시 보호를 위해 개인정보보호법 등 특별법에 의한 보호를 받는다. 또한 인간의 사상과 감정을 표현한 창작성이 있는 데이터는 저작권법의 보호를 받는다. 그 외에도 영업비밀 등에 해당하는 데이터는 부정경쟁방지 및 영업비밀보호에 관한 법률, 데이터 자산에 대해서는 데이터산업진흥 및 이용촉진에 관한 기본법, 산업데이터에 대해서는 산업디지털전환촉진법의 보호를 받는다.

생성형 AI 모델에서 데이터의 이용 관계 이슈는 주로 학습대상 데이터에 저작권이 설정된 경우와 학습대상 데이터가 개인정보인 경우에 발생한다. 원칙적으로는 두 경우 각각 저작권자와 정보주체의 사용허락을 받아야만 적법한 사용이 되지만, 이를 그대로 적용하는 경우 AI 개발이나 서비스 제공이 불가능하므로 이에 관한 예외를 인정하기 위한 논의가 진행 중이다. 그 외 데이터 이용관계 이슈로는 데이터 크롤링 등이 부정경쟁행위에 해당하는 경우가 있다.

먼저 저작권 관련 이슈인데, 저작권법의 예외를 인정받기 위해서 두 가지 법이론이 있다. 첫째, TDM(Text and Data Mining) 면책규정이다. 이는 정보분석 등의 목적으로 AI가 데이터를 이용하는 경우에는 저작권자의 저작물을 인공지능 학습용 데이터로 사용할 수 있도록 하자는 것이다. 이미 EU, 영국, 일본 저작권법에 도입되어 있다.

한국은 저작권법 개정안이 제안된 상태다. 저작권법 개정안에는 컴퓨터를 이용한 자동화 분석기술을 통해 다수의 저작물을 포함한 대량의 정보를 해석(패턴, 트렌드, 상관관계 등의 정보를 추출하는 것)함으로써 추가적인 정보 또는 가치를 생성하기 위한 것으로, 저작물에 표현된 사상이나 감정을 향유하지 아니하는 경우에는 필요한 한도에서 저작물을 복제·전송할 수 있다고 규정하고 있다. AI는 통계적 특성을 학습하는 것일 뿐 인간과 같이 사상과 감정을 향유하기 위한 목적이 없기 때문에 저작권법 위반 책임을 물은 이유가 없다는 점을 분명히 하고 있는 것이다. 다만, 여전히 창작자 단체를 중심으로 동 입법에 반대의견이 있으며, 나아가 보상금이나 기금 조성 등이 필요하다는 의견이 있어 입법까지는 난항이 예상된다.

두 번째 법이론은 공정이용(fair use)이다. 공정이용은 형식적으로는 저작물의 복제 등 저작권 침해행위에 해당하더라도 저작권법의 궁극적인 목적인 ‘문화의 향상발전’이라는 목표에 비추어 허용되는 행위를 말한다. 이는 기술 발달과 저작물 이용환경의 변화로 다양한 형태의 저작물 이용이 나타나고 있어, 기존의 제한적 면책규정으로는 다양한 이용형태를 둘러싼 이해관계자의 입장을 조정하는 데 한계가 있으므로, 저작권 제한사유를 포괄할 수 있는 일반규정을 둘 필요성이 있다는 의견에 따라 도입되었다.

한국의 저작권은 저작물의 통상적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에는 이용의 목적 및 성격, 저작물의 종류 및 용도, 이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성, 저작물의 이용이 그 저작물의 현재 시장 또는 잠재적인 시장 또는 가치에 미치는 영향을 고려해 공정이용 여부를 결정하도록 하고 있다. 미국 저작권법의 경우에도 공정이용에 해당하는지 여부는 상업 또는 비영리 교육 목적 등 이용의 성격, 저작물의 성격, 저작물을 사용한 정도의 양 또는 상당성, 저작물의 사용이 저작물의 잠재적 시장 또는 가치에 미치는 영향을 분석해 결정된다.

아직 AI의 학습데이터 이용에 대해 공정이용 여부를 결정한 판결은 없지만, 구글 북스 사례를 참고할 수 있다. 2016년 4월 18일 미국 연방대법원은 이용자에게 도서 검색의 편의를 제공하는 한편 도서 내용의 일부를 공개하는 구글의 도서 디지털 변환 프로젝트인 구글 북스가 공정이용에 해당된다고 판단해 10년간의 저작권 침해소송을 마무리 지었다, 법원은 구글 북스의 목적이 독자, 연구자 등에게 도서 검색의 편의를 제공하는데 있다는 점, 소설에 비해 저작권 보호의 필요성이 크지 않은 비소설이 디지털 변환의 주요 대상이라는 점, 도서의 일부만을 열람할 수 있다는 점, 구글 북스가 도서 가치의 재발견에 기여할 수 있다는 점 등을 이유로 공정이용에 해당한다고 판단했다.

최근 챗GPT가 뉴스기사를 학습데이터로 사용한 것에 대해 저작권 위반이 아니냐는 논란이 미국 내에서 일어나고 있는데, 미국 언론사가 챗GPT를 뉴스저작권 위반으로 제소한 상황에서 향후 법원의 공정이용 여부 판단이 주목된다. 한국도 TDM(Text and Data Mining) 면책규정 도입 전까지는 공정이용 조항의 이용을 적극 고려할 필요가 있다고 할 것이다.

둘째 이슈는 공개된 데이터에 개인정보가 포함된 경우이다. 즉, 생성형 AI가 인터넷상 성명과 함께 이미 공개되어 있는 사진이나 동영상 등 개인정보를 수집하는 경우, 정보주체의 동의 없이 그러한 개인정보를 수집하는 것이 적법한지에 대한 것이다. 당초 데이터산업법 초안에는 AI 학습데이터가 개인정보인 경우에는 정보주체의 동의를 받아야 하지만, 개인정보처리자의 정당한 이익을 달성하기 위해 필요한 경우로서 명백하게 정보주체의 권리보다 우선하는 경우, 법령에 따라 공시되거나 공개된 데이터, 출판물이나 방송매체 또는 공공기관의 인터넷 홈페이지 등의 매체를 통해 공시 또는 공개된 정보, 정보주체가 스스로 사회관계망서비스 등에 직접 또는 제3자를 통해 공개한 데이터의 경우에는 동의 없이 이용할 수 있도록 했었다.

그동안 공개된 정보의 이용에 대해서는 개인정보보호법 상 명문의 규정이 없어 혼란이 있었으나, 2016년 로앤비 사건에서 대법원이 “이미 공개된 개인정보를 정보주체의 동의가 있었다고 객관적으로 인정되는 범위내에서 수집·이용·제공 등 처리를 할 때에는 정보주체의 별도의 동의는 불필요하다”고 판시함으로써 기준이 제시되었고 이후 2020년 8월부터 시행된 신용정보법은 같은 취지로 조문을 입법화하기에 이르렀다.

이러한 판례나 법령을 따를 때 AI의 데이터 학습과정에서 공개된 개인정보의 수집, 이용은 동의 없이 가능하다고 할 수 있으나, 비금융 분야에도 이를 입법화를 검토할 필요가 있다고 할 것이다. 생성형 AI가 개인정보를 수집하는 경우 인간과 달리 개인식별성이라는 목적을 가지지 않는다는 점도 고려할 필요가 있을 것이다.

셋째, 크롤링 이슈다. 크롤링이란 웹사이트에서 공개된 데이터를 수집하는 행위로, 크롤러(crawler)라는 소프트웨어를 이용해 웹사이트에서 자동으로 대량의 데이터를 복제⋅수집한다. 크롤링은 정보통신망법상 정보통신망침해, 저작권법상 데이터베이스권 침해, 부정경쟁방지법상 성과도용 등에 해당할 가능성이 있다. 숙박플랫폼 간의 크롤링 이슈와 관련해 대법원은 형사이슈에 대해서는 정보통신망법상 정보통신망침해, 저작권법상 데이터베이스권 침해에 대해 무죄를 선고했지만, 민사 손해배상 이슈에 대해서는 상당한 비용과 시간을 들여서 수집·분류·갱신한 숙박업소 정보를 무단으로 복제한 것은, 공정한 상거래 관행이나 경쟁질서에 반하는 방법으로 경제적 이익을 침해한 것으로 보고 손해배상을 명했다.

한편, 위 판결 이후 신설된 부정경쟁방지법상 데이터자산의 부정사용 등 행위에 관한 사항(동법 제12조 제3항)에서는 보호되는 데이터를 “데이터 산업법 제2조 제1호에 따른 데이터 중 업(業)으로서 특정인 또는 특정 다수에게 제공되는 것으로, 전자적 방법으로 상당량 축적·관리되고 있으며, 비밀로서 관리되고 있지 아니한 기술상 또는 영업상의 정보”에 한정함에 따라 불특정 다수에게 공개된 데이터에 대한 크롤링은 부정경쟁방지법 위반이 아닐 가능성이 높아졌다. 결국 AI에 의한 데이터 크롤링의 경우 법적 리스크가 감소했다고 볼 수 있다.

AI는 대량 데이터를 수집, 분석해야만 타당한 결과를 도출한다는 점에서 데이터가 없거나 부족한 경우 제 기능을 발휘할 수 없다. 저작권을 보호함으로써 창작 의욕을 고취하고 개인정보를 보호함으로써 인간의 존엄성을 지키는 것이 중요하지만, AI 기능과 효용에 필수적인 면책규정도 도입함으로써 AI가 인간에게 유용한 도구 역할을 할 수 있도록 할 필요가 있다.

정부도 4월 초거대 AI 경쟁력 강화방안을 발표하면서 저작물의 학습용 데이터 활용, 비정형데이터 가명처리 기준 마련, 재현데이터 활용 확대, 적극적으로 공개한 자기 개인정보의 AI 학습용 데이터 활용 허용 등을 통해 AI 학습용 데이터 활용을 제고할 수 있는 방안 등을 논의하기 위해 인공지능 법제정비단을 운영하기로 했는 바, 가시적인 성과를 기대한다.

생성형 AI 모델에서 데이터 이용 관련 주요 이슈
생성형 AI 모델에서 데이터 이용 관련 주요 이슈

이성엽 고려대 기술경영전문대학원 교수/기술법정책센터장 dysylee@korea.ac.kr

〈필자〉 이성엽 교수는 고려대 법학과, 서울대 행정대학원, 미국 미네소타대 로스쿨을 졸업한 후 미국 뉴욕주 변호사 자격을 취득했고, 서울대에서 법학박사 학위를 받았으며 하버드 로스쿨 방문학자를 거쳤다. 1991년 제35회 행정고시 출신으로 정보통신부, 국무조정실과 김앤장 법률사무소를 거쳐 고려대 기술경영전문대학원 교수로 재직 중이다. 2020년부터 한국데이터법정책학회장을 맡고 있고 고려대 기술법정책센터장/데이터·AI법센터 대표를 겸임하고 있다. 국무총리 소속 국가데이터정책위원회, 미디어·콘텐츠산업융합발전위원회 위원 및 개인정보보호위원회 규제심사위원장으로 활동하고 있다. 행정 경험과 법률 실무를 기반으로 행정규제, ICT, 데이터·AI 분야 법과 정책에 정통한 권위자이다.