
소재를 이루는 원소의 조성과 구조는 수많은 조합이 가능하다. 이런 방대한 조합을 실험으로 모두 합성하고 측정하기란 불가능에 가깝다. 이에 따라 소재 연구개발(R&D) 흐름은 데이터 기반 플랫폼, 특히 인공지능(AI)을 활용한 예측기술 개발의 새로운 패러다임으로 빠르게 전환되고 있다.
AI는 데이터를 먹고 자란다. 양질의 데이터를 학습할수록 더 정확하고 유용한 결과를 낸다. 최근 우리 사회의 뜨거운 화두인 '소버린 AI' 역시 마찬가지다. 그래픽처리장치(GPU) 26만장 확보만큼이나 중요한 문제가 소버린 AI에 공급할 양질의 데이터다.
최근 국내에서 개발된 한 AI 모델도 학습 데이터의 중요성을 입증하고 있다. 이 AI 모델은 정부출연연구기관(출연연)이 오랜 기간 축적한 분석 데이터를 바탕으로 약 20만건 학습 데이터를 구축해 훈련시킨 것으로 정확도가 무려 99.5%에 이른다. 이를 활용하면 초보 연구자도 수개월 만에 5년차 전문가 수준 분석 역량을 갖춘다.
이는 양질의 데이터로 잘 학습된 AI가 국가 R&D 효율성을 얼마나 크게 높일 수 있는지 잘 보여주는 것이다. 이런 AI 해석기술이 보편화될수록 분석 데이터의 '지식 자산'으로서 가치는 더욱 높아진다. 양질의 데이터를 대규모 학습한 AI는 과거 데이터에서 한층 효율적으로 새로운 패턴을 찾아내고 인간 연구자가 놓쳤던 신호를 재해석함으로써 R&D 속도를 획기적으로 가속할 것으로 전망된다.
AI 기반 데이터 분석의 산업적 파급력은 이보다 더 크다. 반도체, 배터리, 수소에너지 등 첨단 산업 품질은 분석 데이터를 얼마나 정확히 이해하느냐에 달려 있다. 이에 따라 글로벌 기업들은 이미 발 빠르게 AI가 데이터를 실시간 해석해 공정 품질을 자동 제어하는 시스템을 구축하고 있다.
그간 대한민국 국가주력산업의 핵심 소재가 탄생하는 과정에서 축적된 데이터는 헤아릴 수 없을 만큼 많다. 전자현미경 이미지, 화학결합 정보, 결정구조 등 소재 종류만큼이나 다양한 분석 데이터가 존재한다. 또 지금도 출연연과 대학 실험실에서는 분초 단위로 엄청난 양의 데이터가 생산되고 있다.
하지만 안타깝게도 체계적인 수집·공유 시스템은 매우 미흡한 수준이다. 표준화되지 않은 데이터가 개별적으로 보관되거나 논문 발표 후 사장되는 경우도 부지기수다. 외산 의존도가 높은 분석장비 산업 구조도 문제다. 이는 힘들게 독자적인 소버린 AI를 구축해도 자칫 소재 연구 핵심인 데이터 해석 주권이 해외에 종속돼버리는 상황을 만들 수 있는 불안요소다.
해법은 명확하다. 소버린 AI라는 하드웨어(HW) 구축과 동시에 데이터 기반 AI 해석기술을 확보하는 것이다. 비록 GPU와 분석 장비는 외산을 쓰더라도 가장 핵심적인 데이터 해석만큼은 우리나라 자체 기술을 활용할 수 있도록 선제적으로 투자해야 한다.
이와 함께 데이터 해석 기술 독립성 확보를 위해서는 다음의 3가지 구체적인 방안이 필요하다. 첫째, 25개 출연연과 대학에 산재한 분석 데이터를 표준화하고 통합하는 범국가적인 플랫폼 구축이다. 둘째, 이곳에 모이는 데이터를 제대로 활용할 수 있도록 주요 분석 기법별로 특화된 AI 모델을 개발하는 것이다. 셋째, 이렇게 개발된 AI 해석기술을 학계와 산업계에 신속히 확산시켜 국가 전체 R&D 생산성을 높여야 한다.
데이터는 AI 시대 국가 경쟁력을 좌우하게 될 전략 자산이다. 대한민국이 AI 주권을 넘어 세계 3대 AI 강국으로 도약하기 위해서는 데이터 표준화와 해석기술 독립이라는 또 하나의 고지를 반드시 선점해야 한다.
안재평 한국과학기술연구원(KIST) 책임연구원 jpahn@kist.re.kr