[AI와 디지털전환] AI 경쟁의 본질은 데이터 공급망에 있다

이정수 플리토 대표
이정수 플리토 대표

최근 몇 년간 인공지능(AI) 산업의 경쟁은 거대언어모델(LLM)의 규모와 연산 능력에 집중돼 왔다. 얼마나 많은 매개변수로 모델을 설계했는지, 얼마나 많은 GPU 인프라를 확보했는지가 기술 경쟁력의 핵심처럼 여겨졌다. 글로벌 빅테크 기업들이 초거대 모델 개발과 인프라 확보에 막대한 자본을 투입해온 것도 이러한 흐름을 보여준다. 그러나 지금AI 산업의 경쟁 구조는 근본적으로 바뀌고 있다. 이제 경쟁은 모델이 아니라 데이터에서 시작된다.

LLM이 발전하면서 인터넷에 공개된 데이터를 이용해 성능을 높이는 방식은 한계에 가까워지고 있다. LLM의 성능을 향상시킬 수 있는 유의미한 데이터가 사실상 고갈 단계에 접어들었다는 분석도 나온다. 단지 데이터의 양을 늘린다고 해서 성능이 더 뛰어난 모델을 만들기 어려운 시대가 되었다.

이 지점에서 중요한 변화가 나타난다. 데이터는 '수집하는 대상'에서 '설계하는 자산'으로 전환되고 있다. 과거에는 데이터의 양이 경쟁력이었다면 이제는 어떤 데이터를 어떤 구조로 설계하느냐가 성능을 좌우한다. 특히 실제 산업 환경에서는 언어와 상황, 도메인 맥락이 반영된 고품질 데이터가 핵심 경쟁력으로 작용한다.

많은 기업이 데이터를 보유하고 있다고 말하지만 AI 학습에 활용가능한 데이터는 제한적이다. 구조화되지 않았거나 품질 검증이 부족한 데이터는 오히려 성능을 저하시킨다. 결국 AI 경쟁력의 본질은 데이터의 규모가 아니라 데이터를 정제하고 구조화하며 목적에 맞게 설계하는 능력에 있다.

현재 LLM 학습에 필요한 데이터의 난이도는 과거와 큰 차이를 보이고 있다. 예전에는 초등학교 수준의 GSM8K 벤치마크가 LLM 평가 기준이었지만, 이제는 대부분의 모델이 대학 수학 수준의 문제까지 해결하는 단계에 도달했다. 그만큼 학습 데이터 또한 대학원 수준 이상의 고난이도 문제로 상향되지 않으면 더 이상의 성능 개선을 기대하기 어렵다. 최근 미국의 주요 데이터 구축 기업들이 외부 전문가 풀을 확대해 나가는 것도 고난이도의 데이터셋을 만들기 위함이다.

이처럼 해외에서는 데이터를 구축·정제하는 과정을 당연한 투자로 받아들이는 반면, 국내에서는 여전히 데이터를 단순 자원이나 공공재로 보는 시각이 남아 있다. 하지만 데이터는 자연적으로 존재하는 것이 아니라 설계되고 구축되는 산업 인프라다. 이 인식의 차이가 AI 경쟁력의 격차로 이어질 가능성이 크다.

이러한 흐름은 피지컬 AI에서도 동일하게 나타난다. 로봇과 자율 시스템은 인터넷 데이터만으로 학습할 수 없다. 실제 환경에서 발생하는 다양한 상황과 인간의 행동을 반영한 데이터가 필요하며, 이는 직접 수집하고 구축해야 한다. 결국 기술적 한계 역시 데이터 확보와 설계의 문제에서 비롯된다.

AI 산업이 성숙 단계에 접어들면서 데이터는 개별 자산을 넘어 '공급망'으로 관리되는 대상이 되고 있다. 데이터를 지속적으로 확보하고 정제하며 학습 가능한 형태로 연결하는 구조가 경쟁력의 핵심이다. 모델은 빠르게 범용화되지만, 이러한 데이터 공급망은 쉽게 복제되지 않는다.

결국 AI 패권 경쟁의 본질은 명확하다. 모델 경쟁은 표면적인 경쟁일 뿐이며, 진짜 경쟁은 데이터 공급망에 있다. 누가 더 정교하게 데이터를 설계하고 안정적으로 공급하는 구조를 갖추느냐가 앞으로 AI 시대의 승패를 가르게 될 것이다.

이정수 한국인공지능·소프트웨어산업협회(KOSA) 초거대AI추진협의회원·플리토 대표 pr@flitto.com