유튜브가 "이 영상을 좋아하실 것 같아요"라며 딱 맞는 콘텐츠를 골라주거나, 쿠팡에서 장바구니에 담지도 않은 상품을 정확히 추천받은 경험이 있을 것이다. 이런 AI 추천은 요즘 대부분 '언어 모델'을 기반으로 작동한다. 그런데 이 AI가 새 상품이나 콘텐츠를 처음 배울 때 쓰는 표준 방식에 근본적인 결함이 있다는 사실이 처음으로 수학적으로 증명됐다. 위스콘신-매디슨 대학교(University of Wisconsin-Madison)와 링크드인(LinkedIn) 연구팀이 2026년 4월 공개한 논문이다.
AI는 단어를 어떻게 기억하고, 왜 문제가 생기는가
먼저 AI가 단어를 기억하는 방식을 이해해야 한다. 챗GPT 같은 AI 언어 모델은 수백억 개의 문장을 학습해 '단어들 사이의 관계'를 숫자 지도로 기억한다. 이 지도에서 '사과'와 '배'는 가까운 곳에, '사과'와 '자동차'는 먼 곳에 위치한다. 단어 하나하나가 지도 위의 좌표처럼 고유한 숫자 위치를 갖는데, 이 위치 정보를 임베딩(Embedding)이라고 부른다.
문제는 AI가 처음 본 단어, 즉 학습 당시에 존재하지 않았던 단어들을 새로 추가해야 할 때 생긴다. 예를 들어 넷플릭스가 AI 추천 시스템에 신작 드라마 수천 편을 새로 등록하거나, 링크드인이 새로운 직무 수십만 개를 AI 어휘에 추가하는 경우다. 이때 AI는 새 단어들이 지도 위 '어디'에 있어야 하는지 처음에는 전혀 모른다.
현재 업계가 이 문제를 해결하는 표준 방법은 '평균 초기화(Mean Initialization)'다. 새 단어들에게 기존 어휘 전체의 평균 좌표를 임시 출발점으로 부여하는 방식이다. 당연해 보이는 방법이지만, 치명적인 함정이 있다. 새 단어가 수천 개라면 그 모든 단어가 정확히 같은 좌표에서 출발하게 된다. 새 직무, 새 드라마, 새 상품이 모두 같은 점에 겹쳐서 시작하는 셈이다.
처음에 같은 위치에 몰려 있으면 이후 학습(파인튜닝, Fine-tuning)을 통해 각자 다른 자리로 퍼질 것이라고 기대할 수 있다. 그런데 이 논문은 그 기대가 틀렸음을 처음으로 증명했다. 연구팀이 기하학적 분석 도구로 직접 확인한 결과, 평균 초기화로 등록된 단어들은 이후 아무리 많은 데이터로 추가 학습을 시켜도 구분 능력이 완전히 회복되지 않았다.

파인튜닝 전에 '자리 먼저 잡기' GTI의 핵심 원리
연구팀이 제시하는 가설은 이것이다. 추가 학습을 시작하기 전에, 새 단어를 AI의 언어 지도 위 의미 있는 위치에 미리 배치하면, AI가 이미 갖고 있는 언어 지식을 새 영역에도 더 잘 활용할 수 있다. 이 가설을 구현한 방법이 GTI(Grounded Token Initialization, 그라운디드 토큰 초기화)다.
GTI의 방식은 단순하다. 본 학습을 시작하기 전에, AI 전체는 그대로 고정한 채 새 단어의 위치 정보만 별도로 먼저 훈련한다. 이때 "파란색 슬림핏 청바지"라는 설명과 그 상품의 코드를 서로 매칭하는 방식으로, 새 단어가 AI가 이미 이해하고 있는 언어 구조 안에서 제 위치를 먼저 찾아가도록 한다. 그다음 이 위치를 출발점으로 삼아 본 학습을 진행한다.
새 직원 채용에 비유하면 이렇다. 기존 방법은 신입 직원을 모두 '회사 평균 인재'로 등록해두고, 업무를 맡긴 뒤 알아서 성장하길 기다리는 방식이다. GTI는 신입이 팀에 합류하기 전에 먼저 자신의 전문성을 파악하고 적절한 부서에 배치된 뒤 실무를 시작하는 방식이다. 같은 기간 실무 경험을 쌓아도, 처음 배치가 제대로 된 직원이 훨씬 빠르게 자기 역할을 찾아간다.
두 개의 실험, 일관된 결과
연구팀은 실제 서비스 환경 두 곳에서 GTI를 검증했다. 하나는 링크드인(LinkedIn)의 실제 사용자 데이터, 다른 하나는 의류 렌탈 서비스 Vibrent의 공개 데이터셋이다.
링크드인 데이터에서 GTI는 표준 방식 대비 최대 +21.63% 향상을 기록했다. 비교 대상인 LC-Rec(추가 학습 '도중'에 보조 학습을 끼워 넣는 방식) 이 같은 조건에서 +6.38%를 달성한 것과 비교하면, 그라운딩 단계 하나만으로 생긴 추가 기여분이 15%포인트를 넘는다. 수백만 명의 구직자가 오가는 플랫폼에서 15%의 추천 정확도 향상은 수십만 건의 매칭 결과를 바꿔놓는 규모다.
공개 데이터셋에서는 더 극명한 차이가 드러났다. GTI가 +26.82%를 기록한 반면, LC-Rec은 후보 범위를 좁혔을 때 표준 방식보다 오히려 -7.49% 낮은 성능을 보였다. 추가 학습 도중 보조 훈련을 끼워 넣는 방식이 특정 조건에서는 역효과를 낳을 수 있다는 것이다. GTI는 같은 조건에서 +7.71%를 기록하며 조건에 관계없이 일관된 향상을 보였다.
두 실험 모두 그라운딩 단계를 추가 학습 '이전'에 두는 것이, '도중'에 두는 것보다 더 효과적임을 일관되게 보여줬다. 같은 재료와 같은 훈련을 거쳤지만 출발점이 달랐고, 그 출발점의 차이가 최종 결과를 갈랐다.
학습을 거쳐도 살아남는 구조 초기화가 병목이라는 직접 증거
연구팀은 '왜 GTI가 더 잘 작동하는가'를 논리가 아니라 눈으로 보이는 방식으로 증명했다. 이 부분이 논문에서 가장 인상적인 대목이다.
세 가지 초기화 방법으로 학습을 마친 AI에서 단어들의 위치 관계를 색깔 격자 그림으로 나타냈다. 같은 색이 많으면 단어들이 서로 비슷한 위치에 있다는 뜻이고, 색이 다양하게 구획돼 있으면 단어들이 각자 고유한 위치를 갖고 있다는 뜻이다.
결과는 직관적으로 충격적이었다. 평균 초기화로 학습한 모델은 추가 학습을 완료한 이후에도 새 단어들이 서로 거의 구분되지 않는 균일한 색 덩어리로 나타났다. 수천 개의 단어가 아직도 같은 존재처럼 보이는 것이다. 반면 GTI로 학습한 모델은 추가 학습 후에도 유사한 단어들끼리 선명하게 구획된 구조가 살아있었다.
처음에 의미 있는 자리를 잡은 단어는 학습을 거쳐도 그 구분이 유지된다. 처음부터 같은 자리에 몰아넣은 단어는 학습 후에도 섞인 채로 남는다. 이것이 연구팀이 제시하는 핵심 결론이다. 추가 학습은 좋은 출발점을 더 좋게 만들 수 있지만, 나쁜 출발점을 근본적으로 고치지는 못한다. 초기화가 병목이다.
추천 시스템을 넘어 모든 AI가 직면한 문제
이 연구의 의미는 추천 시스템에 국한되지 않을 가능성이 있다. 평균 초기화 문제는 추천 AI만의 문제가 아니다. 기존 AI 언어 모델에 새로운 단어나 전문 용어를 대규모로 추가해야 하는 상황이라면 어디서나 동일한 문제가 발생할 수 있다.
특수 의료 용어를 학습시켜야 하는 의료 AI나, 법률 문서에 나오는 전문 용어를 처리해야 하는 법률 AI가 대표적이다. 연구팀 스스로도 결론에서 "추천 이외의 어휘 확장 환경에서의 검증이 향후 과제"라고 밝혔다. 기술 자체는 단순하지만, 그 적용 범위에 따라 AI 시스템 개발 관행에 적지 않은 변화를 가져올 수 있는 연구다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. AI가 새 단어를 '추가 학습'한다는 게 어떤 의미인가요? ChatGPT 같은 AI는 수천억 개의 문장을 학습해 만들어졌지만, 특정 서비스의 신상품 목록이나 새로운 직무 코드처럼 학습 당시 존재하지 않았던 정보는 모릅니다. 그래서 기업들은 기존 AI를 가져다가 자사 데이터로 추가 학습을 시킵니다. 이것이 '파인튜닝(Fine-tuning)'입니다. 이 논문은 그 추가 학습을 시작하기 전 단계, 즉 새 단어를 처음 등록하는 방식에 결함이 있다는 것을 밝혔습니다.
Q. GTI(Grounded Token Initialization)를 적용하면 학습 시간이 크게 늘어나지 않나요? GTI는 본 학습 전에 새 단어의 위치 정보만 먼저 별도로 훈련하는 가벼운 사전 단계입니다. 전체 AI 모델은 그대로 고정한 채 새 단어 부분만 훈련하기 때문에 전체 학습량 증가는 크지 않습니다.
Q. 이 연구 결과는 추천 서비스 외에 다른 AI에도 적용할 수 있나요? 새 단어나 전문 용어를 기존 AI에 추가해야 하는 상황이라면 원리적으로 적용 가능합니다. 의료 AI나 법률 AI처럼 전문 어휘를 대규모로 추가해야 하는 시스템이 대표적입니다. 다만 추천 이외 영역에서의 효과는 아직 실험으로 확인되지 않아 추가 연구가 필요합니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)
AI 리포터 (Aireporter@etnews.com)