네이버 인공지능(AI) 거대언어모델(LLM)인 '하이퍼클로바X'의 이전 버전인 하이퍼클로바가 블로그 사전 학습 비중이 가장 높다는 내용의 논문이 주목받고 있다. 네이버는 하이퍼클로바X의 학습 기준을 공개하지 않고 있다.
1일 자연어처리기술(NLP) 분야 국제 학회인 'EMNLP'에 2021년 채택된 하이퍼클로바 관련 연구 논문에 따르면, 하이퍼클로바는 5618억 토큰(데이터에서 의미를 가지는 최소한의 덩어리)을 사전 학습했다.
이 중 블로그(2736억 토큰)의 비중이 가장 높았다. 이어 온라인 카페(833억 토큰), 뉴스(738억 토큰), 댓글(411억 토큰), 지식인 서비스(273억 토큰) 등 순이었다.
토큰은 AI 학습용으로 모아둔 일종의 '말뭉치'(Corpus·특정한 목적을 가지고 수집한 텍스트 데이터)다. 문장을 만드는 데 사용하는 토큰이 많아질수록 생성형 AI의 연산 과정·시간도 길어진다.
국립국어원이 만든 '모두의 말뭉치'처럼 이미 만들어진 AI 학습용 한국어 데이터 세트는 고품질 출처로 간주해 하이퍼클로바 학습 데이터에 포함됐다. 이 밖에 하이퍼클로바는 다양성 확보 차원에서 일부 전문 지식도 학습했다.
네이버에 따르면 이렇게 만들어진 한국어 데이터 세트는 1.96테라바이트(TB) 크기다. 한국어 위키피디아의 2900배로, 한국어 뉴스 50년 치에 해당한다.
다만 하이퍼클로바의 사전 학습 데이터를 하이퍼클로바X의 현재 학습 데이터로 단정지을 수 없다. AI가 고정된 모델이라기보다는 지속적으로 업데이트된 데이터를 학습하며 고도화하고 있어서다.
조재학 기자 2jh@etnews.com