
챗GPT는 엄청난 양의 최첨단 GPU를 쏟아부어 데이터를 학습해서, 인공지능(AI)과 인간 사이에 자연스러운 소통이 가능하게 된 대규모언어모델(LLM)을 기반으로 한 생성형 AI다. 이러한 물량 공세가 가능했던 것은 엔비디아가 수 십년간 키워온 설계, 생산 역량을 집약한 초고성능 GPU를 지속적으로 출시하고 공급해왔기 때문이다. 공장 없이 반도체 설계에만 집중하는 팹리스 업체, 초미세 공정을 위한 장비를 납품하는 업체, 팹리스 업체가 주문한 반도체를 생산해주는 파운드리, 그리고 GPU 모듈에 들어가는 첨단 고대역폭메모리(HBM)까지 반도체 시장의 주역들은 끊임없는 기술혁신을 통해 생성형 AI 업체들이 새로운 신화를 써 내려가는 데 있어 중요한 뒷배가 되어주었다. 가장 많은 GPU를 보유한 미국이 생성형 AI 선도국가로 안착할 수 있게 됐다.
이러한 AI 생태계는 GPU와 같은 첨단 하드웨어, 엔비디아의 쿠다와 같은 소프트웨어(SW), 그리고 소비자의 열렬한 반응이 공존하면서 꽤 오랫동안 상승과 확장을 구가하게 될 것처럼 보였다. 그러나 중국의 량원평이 설립한 것으로 알려진 딥시크는 미국, 대만 기업인 엔비디아, TSMC와 같은 거인들이 장악한 생성형 AI 시장에 가성비 모델이라는 역발상을 통해 넌지시 도전장을 내밀었다. 딥시크는 자신들의 소스코드 대부분을 공개하는 오픈소스를 선언하면서 기술력의 자신감을 과시했고, 기존 생성형 AI에 들어간 비용의 십분의 일만 들이고도 챗GPT와 거의 동등한 성능의 모델을 만들었다고 주장한다. 전문가들은 그렇게 적은 비용만으로 과연 가능했을까, 챗GPT로 부터 모델을 학습한건 아닐까 하는 의심의 눈초리를 버리지 못하면서도 오픈소스로 단기간에 가성비 좋은 생성형 AI 모델을 만들었다는 데에는 큰 이견을 보이지 않고 있다.
그렇다면 딥시크의 비결은 무엇일까. 일단 그 속을 들어다보면 전문가 결합(MOE)이라는 구조를 기본으로 하고 있다. 여기서 전문가라는 용어는 1970년대 AI 업계를 풍미했던 전문가시스템을 연상하게 되는데 기술적으로는 전혀 관계가 없다. 예전의 전문가시스템은 의사, 변호사와 같은 특정 도메인의 전문가들이 가진 지식을 규칙, 조건, 사례 등으로 구조화해 학습하고 그것을 바탕으로 사전에 정의된 알고리즘에 따라 사용자의 요구에 들어맞는 정보를 인출하는 방식으로 작동했다. 하지만, 전문가의 지식을 끊임없이 업데이트 해줘야 하고, 정해진 규칙과 알고리즘을 벗어나기 어려운 단점 때문에 사그라들고 말았다.
그런데 딥시크는 전체 모델(신경망)을 여러 개의 작은 하위 모델로 나누고, 각 하위 모델이 특정 데이터 패턴이나 작업에 특화된 '전문가' 역할을 수행하도록 설계된 구조를 갖고 있다. 여기서 게이트웨이는 입력 데이터를 기반으로 활성화할 소수의 전문가를 선택하되, 특정 전문가에 과도하게 의존하지 않도록 조절하는 역할을 한다. 또 입력 데이터가 주어졌을 때, 입력에서 출력에 이르는 전체 학습 과정을 하나의 통합된 과정으로 최적화하는 방법을 사용하게 된다. 기존 강화학습을 최적화 해 연산 비용을 절감하고 성능을 향상시켰다고 평가된다.
결국 미국을 중심으로한 기업들이 반도체와 AI SW 영역에서 오랜 기간 축적해온 생태계로 막강한 지배력을 구축했다면, 딥시크와 같은 신흥 세력들은 작고 강건한 모델을 만들어내는 역발상을 통해 시장을 흔들려고 하고 있다. 그렇다면 우리 기업들은 어떻게 해야 단단한 입지를 가질 수 있을까. 지금 한국의 관료, 산업계, 학계의 전문가들은 이 질문에 답하기 위해 밤잠을 못이루고 있다. 강호제현의 지혜가 필요한 때다.
김장현 성균관대 교수