[AI사피엔스 시대]스페셜리포트1. 책 읽는 로봇

발행일 : 2020-04-07 18:00 지면 : 2020-04-08 17면

'인공지능 법제도 연구포럼'은 인공지능 기술 활성화에 따라 떠오르는 법제도 문제를 주제별로 나눠 심층적으로 분석하는 코너를 마련했습니다. 포럼 참여 위원이 각자 맡은 전문 분야에 대한 연구 결과를 요약보고서 형태로 추려 13회에 걸쳐 게재합니다.

책 읽는 로봇을 위한 제언

-정상조 인공지능 법제도연구포럼 위원장(서울대 법대 교수)

4년 전 이세돌 9단과의 바둑대결에서 알파고(AlphaGo)가 4대 1의 대승을 거둔 사건을 계기로, 우리는 로봇과 인공지능(AI)에 관심을 갖게 됐다. 바둑처럼 복잡한 게임에서 알파고가 인간 최고 바둑 고수를 물리쳤다는 사실은 우리뿐만 아니라 세계에 엄청난 충격을 몰고 왔다. 알파고와 바둑대결에서 바둑판을 사이에 두고 이세돌 9단의 앞에 앉은 사람은 아자황(Aja Huang) 아마 6단이지만, 아자황은 인간로봇이었을 뿐이다. 아자황은 AI로 무장한 로봇 알파고의 손발이 돼 기계적으로 바둑돌을 놨기 때문이다. 아자황의 손발을 움직이는 진짜 머리는 미국에 있는 구글 최고 사양 서버 300대인데, 서버 한 대당 인텔의 중앙처리장치(CPU) 네 개씩 들어 있다. 결국 1200여개의 두뇌가 함께 의논해서 바둑을 둔 셈이다. 알파고 승리는 압도적으로 성능이 좋은 컴퓨터 두뇌 덕분이지만, 더 중요한 사실은 그 두뇌가 3000만건 바둑기보를 학습해서 게임 실력을 향상시켰다는 점이다.

인간보다 더 뛰어난 지능을 갖춘 이른바 지능형 로봇은 바둑기보와 같은 방대한 분량의 데이터를 학습하고 분석해서 일정한 패턴을 찾고 패턴에 따라서 작업을 수행한다. 지능형 로봇이 인간처럼 책을 읽고, 그림을 보고, 음악을 듣는다는 것은 신기하고도 무서운 사실이다. 구글은 10여 년 전부터 하버드, 스탠퍼드, 옥스퍼드 대학도서관에 보관된 2500만권 이상 장서를 모두 스캔해서 서버에 저장했다. 이제 2500만권 장서는 인간들을 위한 디지털 도서관이 되면서 동시에 구글 로봇을 공부시키고 훈련시키기 위한 학습 자료가 된다.

하버드 도서관은 교수와 학생을 위한 것이지만 구글 디지털 도서관은 로봇을 위한 도서관으로 더 많이 활용될 것이다. 사람은 그 많은 책을 다 읽을 수 없지만, 구글 로봇은 전원만 계속 공급되면 모두 다 학습하고 분석할 수 있다. 로봇은 그냥 앉아서 서버 속 데이터만 읽고 있는 것은 아니다. 대부분의 로봇은 크롤러(crawler)나 스파이더(spider)를 통해서 보다 적극적으로 외부 인터넷망을 돌아다니면서 서버 밖의 데이터를 수집하고 저장하고 공부한다.

로봇의 학습데이터 수요는 무제한이다. 우리 인간이 책을 읽는 것과 달리 로봇의 학습은 빛의 속도로, 무제한적으로 이뤄진다. 따라서 로봇의 학습데이터 수요가 급증하면서, 데이터를 확보한 기업은 자신의 데이터를 통제하기 위한 다양한 권리를 주장하려 한다. 로봇이 학습에 활용하는 데이터는 유형이 다양하고 보호도 다양한 법률에 의해 이뤄진다. 개인정보를 포함한 데이터는 개인정보보호법의 보호대상이다. 기본적으로 개인정보는 정보주체 즉 개인의 것이지만, 기업의 서비스를 받기 위해서 개인정보 이용에 동의하는 순간부터 개인정보는 개인과 기업 그리고 기업과 기업 간 묘한 갈등의 대상이다.

개인정보를 포함한 데이터이든 개인정보를 포함하지 아니한 데이터이든, 데이터 보유 기업은 저작권법상 권리를 주장한다. 데이터가 저작물, 편집저작물 또는 데이터베이스에 해당된다면 저작권법상 권리보호 대상이 되기 때문이다. 데이터가 저작권법상 보호받을 수 없는 경우에도, 부정경쟁방지 및 영업비밀보호에 관한 법률(부정경쟁방지법) 또는 콘텐츠산업진흥법의 일정한 요건을 충족하면 그 법의 보호대상이 될 수 있다. 데이터 유형을 불문하고 경제 가치를 가진 데이터로서 비밀로 관리된 데이터라면 영업비밀로 보호될 수도 있다. 기업이 스스로 데이터를 생산한 경우뿐만 아니라 고객으로부터 제공받은 데이터도 기업은 데이터에 대한 다양한 권리를 주장하면서 데이터 무단사용을 금지하고 통제하려 한다.

데이터는 성문상의 재산권뿐만 아니라 계약에 의해서도 보호할 수 있다. 예컨대, 데이터를 먼저 확보한 기업이 자신의 웹사이트에서 크롤러, 스파이더 등 로봇에 의한 데이터 접근을 금지하는 약관을 두거나 루트 디렉터리에 'robots.txt'와 같은 로봇배제표준(robot exclusion standard)을 채택할 수 있다. 계약의 유효성이나 계약 위반의 효과가 무엇인지에 관해서는 논란이 있을 수 있지만, 데이터를 보유한 기업이 자신의 데이터를 통제하기 위한 다양한 방법의 하나로 볼 수 있다.

데이터의 유형에 따라서 또는 데이터 보호방법에 따라서, 데이터 보유기업이 가진 권리의 성격과 범위가 다르다. 다시 말해 데이터 유형이나 계약 조건에 따라서 로봇이 데이터를 이용할 수 있는 범위도 달라진다. 로봇이 정보주체 또는 권리자의 허락을 받아서 데이터를 수집하고 이용하면 문제가 없겠지만, 이용허락 여부가 불명확하거나 허락 없이 이용하는 경우에 권리침해 여부가 문제된다. 특히 크롤로나 스파이더처럼 기계적이고 반복적으로 데이터를 수집해서 이용하는 경우에 권리침해 여부뿐만 아니라 관련 법률 해석상 어려운 문제가 제기된다.

학습데이터의 적법한 이용과 판단 기준이 중요해진다. 로봇을 생산하거나 활용하는 기업은 스스로 데이터를 확보해서 데이터 보유기업의 지위를 가질 수도 있지만, 동시에 상당수 기업은 인터넷상 데이터를 이용하는 이용자 지위에 놓여있다.

데이터 유형별로 로봇이 어떠한 범위에서 데이터를 수집해서 이용할 수 있는지 조금씩 다르다. 개인정보의 경우에 2020년 법 개정에 따라서 로봇에 의한 가명정보 및 익명정보의 이용이 활성화될 것으로 예상된다. 그러나 로봇이 수집해서 이용하는 데이터가 개인을 알아볼 수 있는 개인정보에 해당되는 경우에는 정보주체의 동의를 받아야 한다. 다만 인터넷상 이미 공개된 사진이나 동영상 등 개인정보를 수집해 이용하는 경우에도 정보주체의 동의를 받아야 하는지는 개정법 하에서도 여전히 불명확하다.

로봇의 학습데이터가 타인의 저작물 또는 데이터베이스에 해당되는 경우에는, 그 이용이 저작권 제한 또는 공정이용에 해당되는지 여부가 중요한 관건이 된다. 이미지 검색서비스를 제공하는 기업이 크롤러나 스파이더를 동원해 인터넷상 이미지를 수집해서 손톱 크기의 저해상도 이미지 즉 섬네일(thumbnail) 이미지로 활용하는 것은 공정한 인용으로 허용된다고 보는 것이 국내외 판례의 확립된 해석론이다. 인간은 이미지의 심미적 가치를 감상하기 위한 목적으로 이미지를 이용하지만, 로봇은 검색이나 개체인식 등 새로운 용도를 위해서 이용하는 것이라면 굳이 로봇의 데이터 이용을 저작권 침해로 볼 필요가 없을 것이다. 로봇에 의한 데이터 수집과 이용이 그 데이터의 본래 용도와 다른 이른바 변형적 이용(transformative use)에 해당되면, 로봇에 의한 데이터 이용이 저작권자 이익을 심각하게 침해하지 않고 오히려 공익에 기여할 수 있다고 말할 수 있다. 로봇에 의한 데이터의 투입, 분석, 산출은 단계별로 상이한 기업이 나눠서 전문적으로 수행하는 경우가 많기 때문에 단계별 공정이용 여부를 검토해볼 필요도 있다.

저작권법과 달리 개인정보보호법이나 부정경쟁방지법 또는 콘텐츠산업진흥법은 공정이용의 예외를 두고 있지 않다. 로봇에 의한 데이터 이용이 개인정보보호법에서 가명정보나 익명정보로서 허용되는지 또는 부정경쟁방지법상 공정한 상거래관행이나 경쟁질서에 반하지 않고 적법한 것으로 허용되는 것인지가 중요한 쟁점으로 남게 된다.

로봇은 새로운 경쟁 질서를 요구한다. AI가 대중화되고 책 읽는 로봇이 많아질수록, 데이터를 보유한 기업과 그 데이터를 수집하고 이용하고자 하는 기업 사이의 갈등은 점점 커질 것이다. 데이터에 대한 권리 및 법적보호는 데이터 생산을 촉진하는 기능을 갖지만, 권리과잉 내지 지나친 보호는 수집과 이용을 위축시키고 장기적으로 생산까지 위축시키는 악순환을 초래할 수 있다. 따라서 데이터 무단이용의 위법성은 데이터를 둘러싼 공정한 경쟁질서 즉 데이터의 생산과 수집 및 이용의 효율적인 균형점을 고려해 판단해야 한다. 저작권법에서 데이터 보호와 이용의 효율적인 균형점이 바로 공정 이용이지만, 그 판단기준이 추상적이고 예측하기 어려운 문제점을 갖고 있다.

자본주의에서 재산을 둘러싼 경쟁은 소유권의 보호와 계약의 자유라고 하는 기본원칙에 입각하고 있다. 기존 굴뚝산업을 중심으로 한 자본주의에서 소유권은 거의 절대적으로 보호돼야 하는 재산으로 인정됐다. 그러나 로봇과 AI가 중심이 된 데이터 자본주의에서는 데이터에 대한 재산권이 혁신과 창작의 촉진이라고 하는 목적을 위해서 필요한 한도 내에서만 인정되는 권리로 인식된다.

전통적인 자본주의에서 소유권은 자연법적인 권리로 보호됐지만, 데이터자본주의에서 저작권과 같은 재산권은 혁신과 창작을 촉진하는데 필요한 기간 동안만 인정되는 실정법상 권리에 불과하다. 저작권법상 공정이용은 창작을 촉진하는데 필요한 범위 내로 저작권을 제한하는 제도다. 부정경쟁방지법에서 성과물 무단이용의 위법성에 대한 예외로 공정한 상거래 관행이나 경쟁질서가 구체적으로 무엇인지 중요한 이유가 여기에 있다. 공정이용에 관한 저작권법상 일반조항과 마찬가지로 부정경쟁방지법상 공정한 상거래 관행이나 경쟁질서의 판단기준은 추상적이고 그 판단결과를 예측하기가 어렵다. 공정이용과 같은 지재법 내부의 제도적 장치에 의한 데이터 보호와 이용 간 균형이 원활하게 유지되지 못하는 경우에는, 데이터에 대한 권리 행사가 독점규제법에 위반된다고 하는 주장이 제기될 수도 있다. 로봇이 우리 사회와 경제에 긴요한 역할을 한다고 인정한다면, 로봇의 데이터 접근과 활용을 반영한 새로운 경쟁질서가 모색될 필요가 있다.

책 읽는 로봇을 위한 법 개정이 필요하다. 일상생활의 일부가 돼가는 지능형 로봇은 책을 읽고 이미지를 보고 소리를 듣고 공부해서 비로소 지능형 서비스를 제공한다. 지능형 로봇에 학습데이터를 제공하지 않는다면 아무런 가치 없는 고철덩어리로 전락한다. 젊은 청소년에게 독서를 권장하듯이 로봇에도 학습데이터를 접근하고 이용할 수 있는 충분한 기회를 제공해줄 필요가 있다. 사람은 책을 읽는데 저작권자의 허락을 받을 필요가 없지만, 로봇은 저작물이나 기타 데이터를 공부하기 위해서 서버에 저장해둘 필요가 있다. 때문에 저작권 등의 권리 보유자 허락을 받아야 하는지 아니면 공정이용으로 적법한 것인지가 문제로 남아 있다. 로봇이 적법하게 데이터를 접근하고 이용하기 위해서는 공정이용의 명확한 기준이 제시될 필요가 있다.

데이터 분석에 관한 구체적 저작권 제한의 사유를 추가로 열거해서 입법하는 해외 입법례들이 있다. 일본이 대표적 예다. 일본 저작권법은 2018년 개정돼 '저작물에 표현된 사상이나 감정의 향유를 수반하지 않는 이용'을 명시적인 저작권 제한사유의 하나로 추가해서 열거했다. 일본 개정 저작권법에 의하면, 저작물의 종류 및 용도와 이용양태에 비추어 저작권자의 이익을 부당하게 해하지 않는 한 해당 저작물에 표현된 사상 또는 감정을 스스로 향유하거나 또는 타인에게 향유하는 것을 목적으로 하지 않는 비표현 이용(non-expressive use)은 저작권침해에 해당되지 않는다. 로봇에 의한 학습데이터 이용은 저작물의 표현에 대한 인간의 지각에 의한 인식을 동반하지 않고 저작물의 사상이나 감정을 감상하거나 향유하기 위한 것이 아니기 때문에, 일본 개정 저작권법에 따르면 로봇에 의한 데이터이용이 저작권자 이익을 부당하게 해하지 않는 한 적법한 것으로 해석될 수 있는 것이다.

우리나라 저작권법은 미국 입법례를 따라서 공정 이용에 관한 일반조항을 도입했음에도 그 추상성으로 인해 현실적 적용에는 애로가 많다. 우리 법원은 미국 법원과 달리 일반조항의 적용에 신중하고 새로운 법리 도입에 소극적이다. 로봇과 AI에 의한 학습데이터의 학습과 활용이 적법한 것인지 여부에 관한 보다 명확하고 예측 가능한 판단기준을 입법화할 필요가 있다. 데이터 권리보호도 중요하지만 적법한 데이터 이용의 조건과 범위가 명확할 때에 비로소 개인과 기업의 혁신과 투자가 왕성하게 이뤄질 수 있다.

AI 사피엔스 시대