소버린 AI의 마지막 한 축, 산업 데이터… 모델ㆍ반도체 못 메우는 자리

소버린 AI 논의가 자체 파운데이션 모델과 국산 AI 반도체로 좁혀지고 있다. 두 축은 가시적이다. 모델은 발표 가능한 성능 지표가 있고, 반도체는 양산 라인의 숫자가 따라온다. 그런데 세 번째 축, 산업 데이터는 좀처럼 무대 중앙으로 올라오지 않는다. 이상한 일이다. 모델을 학습시키는 것도 데이터고, 반도체를 돌리는 것도 결국 데이터이기 때문이다.

산업 데이터의 자리가 비어 있는 이유는 단순하다. 눈에 잘 띄지 않는다. 모델은 데모로 보여줄 수 있고 반도체는 칩으로 보여줄 수 있지만 산업 데이터는 한 장의 사진으로 정리되지 않는다. 그러나 정작 모델과 반도체가 갖춰진 뒤에도 한국 AI가 글로벌 시장에서 어떤 위치에 설지를 결정하는 것은 이 보이지 않는 한 축이다.

산업 데이터는 두 갈래로 갈라진다. 한쪽은 한국어 텍스트로 대표되는 언어 데이터다. 이 라인은 이미 여러 국책 사업과 민간 컨소시엄을 통해 운영되고 있다. 다른 한쪽은 산업 도메인 데이터다. 특허, 임상, 화학, 반도체 공정, 금융 거래, 사법 기록처럼 한 국가의 산업 구조가 통째로 쌓여 있는 데이터의 묶음을 가리킨다. 글로벌 빅테크 IP 풀의 무게중심도 사실은 이 쪽으로 기울어 있다. 5월 출범한 글로벌 AI 라이선스 재단(SAIL Foundation)이 노린 것은 단순한 텍스트가 아니라 AI 파운데이션이 산업으로 내려갈 때 부딪히는 권리 처리의 자리였다.

산업 도메인 데이터 중에서도 특히 무게가 무거운 라인이 특허 데이터다. 산업의 의사결정이 권리의 언어로 옮겨져 있고, 그 권리가 다시 청구항이라는 정형 구조로 정리되어 있다. 글로벌 빅테크 7개사가 국내 6개사의 17배에 달하는 AI 파운데이션 특허를 보유하고 있다는 사실은 같은 모델이라도 누가 어떤 권리의 언어 위에서 학습되는가에 따라 가닿는 라인이 달라진다는 신호이기도 하다.

문제는 이 라인의 진입 장벽이 자체 모델이나 AI 반도체와는 결이 다르다는 점이다. 모델은 시간을 들이면 성능이 올라간다. 반도체는 양산 라인이 깔리면 출하량이 늘어난다. 그러나 산업 도메인 데이터는 시간이 흘러도 새로 생성되는 것이 아니다. 누적되어 있어야 하고, 정리되어 있어야 하고, 학습 가능한 형태로 가공되어 있어야 한다. 한 국가의 산업이 한 세대 이상 쌓아 올린 권리·기록·계약의 묶음이 있어야 출발이 가능하다는 의미다.

업계 일각에서는 이 점에서 한국이 의외의 자산을 들고 있다는 평가가 나온다. 한국 특허청에 누적된 출원ㆍ등록 데이터는 양적으로 결코 작지 않고, 청구항 구조와 분류체계가 일정 수준 표준화되어 있다. 산업 IP 영역에서 자체 도메인 특화 언어모델을 운영하는 민간 사업자도 등장하기 시작했다. 한 사업자의 경우 106개국 1억 7천만 건의 특허, 2,500억 개의 특허 문장, 16억 장에 이르는 도면을 학습 자산으로 가공해 도메인 모델 학습에 투입하고 있는 것으로 알려져 있다. 자체 도메인 언어모델 위에서 검색·분석을 넘어 권리 문서의 정합성을 점검하는 라인까지 운영하는 단계다. 글로벌 AI 라이선스 재단의 출범 흐름과 같은 시기에 산업 IP 데이터의 가공ㆍ학습 라인이 민간에서 자라고 있다는 사실은 곱씹어 볼 만한 신호다.

최근 산업계의 협력 흐름도 이 자리를 가리킨다. 한 국내 AI 연구원과 산업 IP 사업자가 특허에 특화된 AI 모델을 공동 개발하는 라인을 본격화한 사례, 한 국책 연구기관이 특허 검색ㆍ분석 솔루션 사업의 우선협상 라인을 민간 사업자와 잡은 사례 등이 같은 자리에서 관찰된다. 자체 파운데이션 모델 라인이 산업으로 내려오면서 그 모델이 산업 IP 데이터의 정합성과 맞물려야 비로소 작동한다는 인식이 자리 잡고 있다는 의미로 읽힌다.

소버린 AI 논의가 모델과 반도체로만 좁혀질 때 생기는 사각지대는 분명하다. 모델이 학습할 데이터의 권리 처리, 반도체가 돌릴 데이터의 정합성, 그리고 그 데이터가 글로벌 표준특허의 흐름과 어떻게 맞물릴지의 라인. 세 번째 축이 빠진 소버린 전략은 두 다리로 서 있는 의자와 다르지 않다. 모델과 반도체가 갖춰질수록 그 위에 올릴 산업 데이터의 라인이 보이지 않는다는 사실이 점점 또렷해진다.

해외 사례를 보면 이 자리의 정렬이 더 분명해진다. 미국과 유럽의 AI 파운데이션 사업자는 산업 데이터 라인을 직접 운영하지 않는다. 대신 표준 특허 풀과 라이선스 재단의 형태로 권리 라인을 묶어 두고, 그 위에서 모델을 운영한다. 데이터를 누가 보유하느냐의 문제가 아니라 권리 라인을 누가 협상 테이블에서 다루느냐의 문제로 옮겨 가고 있다는 의미다. 한국이 이 협상 테이블의 안쪽에 자리 잡으려면 자체 모델과 반도체의 진도만으로는 부족하다. 산업 도메인 데이터, 특히 특허 데이터를 학습 가능한 형태로 가공ㆍ운영하는 민간 라인이 함께 자라야 한다.

그래서 다음 라인의 정책 의제는 이미 정해져 있다고 봐도 무리가 없다. 산업 도메인 데이터의 가공ㆍ학습 가능 형태 표준의 정립, 민간 사업자가 운영 중인 도메인 모델과 국가 단위 데이터 라인의 정합성 점검, 글로벌 표준특허 협상 라인에 산업 IP 시각이 들어갈 통로의 마련이다. 세 가지 모두 모델ㆍ반도체 라인과 별개로 굴러가야 하는 의제다. 한 축이 더 자라지 않으면 다른 두 축이 아무리 빨리 자라도 의자는 흔들린다.

워트인텔리전스는 “소버린 AI라는 단어가 처음 등장했을 때, 시장은 그것을 자급자족의 언어로 받아들였다. 그러나 한 단계 더 들여다보면, 소버린은 자급의 문제가 아니라 협상 테이블의 문제”라며 “한국이 그 테이블의 안쪽에 앉기 위해 모자란 한 축은 모델도 반도체도 아니다. 산업이 한 세대 동안 쌓아 온 데이터, 그것을 학습 가능한 권리의 언어로 옮겨 본 경험. 그 자리가 비어 있는지 차 있는지가 다음 협상에서 한국의 지분을 결정한다”고 진단했다.

이원지 기자 news21g@etnews.com