[김경환 변호사의 디지털법] 〈28〉인공지능(AI) 학습데이터 크롤링에 대한 법적 고려 사항

발행일 : 2024-03-05 16:00 지면 : 2024-03-06 26면

크롤링(crawling)이란, 자동화된 방법으로 지정된 특정 웹사이트 또는 불특정 다수의 웹사이트 등을 방문해 기계적으로 복제하는 기술을 의미한다. 인공지능(AI) 학습데이터 확보 탓도 있겠지만 과거보다 크롤링에 대한 욕구나 이슈 또는 문의가 늘어가고 있다. 특히 크롤링을 전제로 하는 비즈니스 모델도 적지 않기에 크롤링에 대한 바른 이해가 선행되지 않으면 비즈니스 자체가 불법으로 판명날 수 있는 위험성도 있다.

먼저 크롤링에 대한 법원의 판결 이력을 보면, 최초의 크롤링 사건은 리그베다위키 vs 엔하위키미러 사건에서 시작된다. 엔하위키미러는 리그베다위키의 데이터베이스를 그대로 가져와서 서비스하였는데, 이러한 행위가 저작권법상 데이터베이스권 침해 및 부정경쟁행위에 해당된다고 법원이 판시하면서 크롤링에 대한 법리 정립 작업이 시작됐다.

이후 잡코리아 vs 사람인 사건에 의하여 크롤링에 대한 법리가 정립되었는데, 사람인이 잡코리아의 채용정보를 크롤링해서 자사의 사이트에서 서비스한 사건이다. 법원은 사람인의 행위는 저작권법상 데이터베이스권 침해 및 부정경쟁행위에 해당된다고 판단했고, 데이터베이스 자체가 아니라 다수의 채용정보를 크롤링해도 법적 문제가 발생할 수 있음을 최초로 밝혔다.

잡코리아 vs 사람인 사건 이후에는 야놀자 vs 여기어때 사건이 유명한데, 경쟁 관계에 있는 여기어때가 야놀자의 숙박정보를 크롤링해서 분석한 사건이다. 민사법원은 부정경쟁행위가 해당한다고 판단했고, 형사법원은 저작권법상 데이터베이스권 침해, 정보통신망 침입에 해당하지 않는다고 판단했기 때문에 민사적 판단과 형사적 판단을 구분해서 검토해야만 한다.

위 3개의 판례에서 알 수 있듯이, 크롤링은 정보통신망 침입, 저작권법상 데이터베이스권 침해, 부정경쟁행위의 해당 여부가 법적 쟁점이라 할 수 있다.

대법원은 크롤링이 정보통신망 침입에 해당하는지 여부에 대하여 소극적으로 보고 있는데, 그 이유는 접근권한 유무를 판단할 때 주관적인 의사가 아니라 객관적으로 드러나 사정을 기준으로 판단해야 하는데, 야놀자 vs 여기어때 사건에서 약관이나 코드상으로 크롤링 금지에 대한 적절한 조치가 선행되지 않았기 때문이다.

저작권법상 데이터베이스권 침해 즉 상당한 양의 크롤링이 있는지 판단할 때는 양적인 측면만이 아니라 질적인 측면도 함께 고려해야 하고, 양적으로 상당한 부분인지 여부는 복제 등이 된 부분을 전체 데이터베이스의 규모와 비교해 판단해야 하며, 질적으로 상당한 부분인지 여부는 복제 등이 된 부분에 포함되어 있는 개별 소재 자체의 가치나 그 개별 소재의 생산에 들어간 투자가 아니라 데이터베이스제작자가 그 복제 등이 된 부분의 제작 또는 그 소재의 갱신·검증 또는 보충에 인적 또는 물적으로 상당한 투자를 했는지를 기준으로 제반사정에 비추어 판단해야 한다는 게 대법원의 입장인 바, 질적으로 가치가 낮거나 상당한 투자가 없다고 볼 정보에 대한 크롤링은 허용될 수 있다.

부정경쟁행위 중 성과 모방은 형사 사안은 아니고 민사 사안인데, 타인의 상당한 투자나 노력으로 만들어진 데이터베이스를 공정한 상거래 관행이나 경쟁질서에 반하는 방법으로 자신의 영업을 위해 무단으로 사용하는 행위는 금지된다. 이는 주로 경쟁관계에 있는 업체 사이의 크롤링은 부정경쟁행위로 본다.

모든 크롤링은 위법하다고 볼 수 없고 모든 크롤링이 허용된다고도 볼 수 없다. 개개의 사안 별로 법적 검토가 면밀하게 이루어져야 비로소 합법성 여부를 판명할 수 있다는 점을 유념하고, 비즈니스 모델 설계 단계부터 법적 검토에 신경을 써야 할 것이다.

법무법인 민후 김경환 변호사

김경환 변호사의 IT법