
피씨엔은 소멸 위기에 처한 제주 방언(제주어)의 보존과 대중화를 위해 '제주 방언·표준어 양방향 인공지능(AI) 번역 거대언어모델(LLM)'을 자체 개발하고, 이를 글로벌 오픈소스 플랫폼인 허깅페이스에 무료로 공개했다고 8일 밝혔다.
이번에 공개된 모델은 피씨엔이 제주어의 명맥을 잇고 누구나 쉽게 제주어를 이해하고 사용할 수 있도록 돕기 위해 개발한 공익적 성격의 AI 프로젝트다. 특히 피씨엔이 데이터 전처리부터 모델 레이어 설계, 사전학습까지 바닥부터 직접 쌓아 올린 '프롬 스크래치' 방식으로 구축했다.
피씨엔은 AI허브 비롯해 외부에 공개된 다양한 제주어 데이터를 폭넓게 활용하여 이번 모델을 학습시켰다.
피씨엔의 제주어 번역 모델은 약 8,800만(88M) 파라미터 크기의 디코더 전용 아키텍처로 설계되었다. 전체 용량이 178MB에 불과한 초경량 모델로, 값비싼 고성능 서버가 아닌 일반 소비자용 그래픽처리장치(GPU) 환경 및 온디바이스 환경에서도 원활하게 구동될 수 있도록 접근성을 극대화했다.
피씨엔은 이 모델을 허깅페이스에 아파치 2.0(Apache 2.0) 라이선스로 전면 공개했다.
이우성 피씨엔 이사는 “유네스코가 지정한 소멸 위기 언어인 제주어가 일상에서 점점 사라져 가는 현실이 안타까워, 우리가 가장 잘할 수 있는 AI 기술을 통해 이를 보존하고자 이번 모델을 기획하게 되었다”라며, “특히 AI 기반 언어 모델의 혜택이 영어 등 주류 언어에만 편중되지 않고, 지역 방언과 같은 로우 리소스 언어 영역까지 확대될 수 있음을 증명한 사례”라고 설명했다.
이어 “자체적으로 파운데이션 모델을 처음부터 학습시킬 수 있는 피씨엔의 기술 역량이 입증된 만큼, 앞으로도 기술의 사회적 가치를 실현하는 다양한 AI R&D를 지속해 나갈 것”이라고 덧붙였다.
강성전 기자 castlekang@etnews.com