[과학산책]대형연구인프라와 데이터의 공진화, 미래 과학 패권의 조건

조규진 한국과학기술정보연구원(KISTI) 대용량데이터허브센터장
조규진 한국과학기술정보연구원(KISTI) 대용량데이터허브센터장

2012년 수십년간 이론으로만 존재하던 힉스 입자의 실체 확인, 2015년 아인슈타인이 100년 전 예언했던 중력파의 실제 탐지, 2024년 노벨화학상을 휩쓴 인공지능(AI) 기반 단백질 구조 예측 기술 '알파폴드'.

시대와 분야, 방법론은 모두 다르지만 이 위대한 과학적 성과들 이면에는 하나의 공통점이 존재한다. 바로 대형연구인프라에서 생산된 방대한 데이터를 체계적으로 축적하고 정교하게 분석하며, 이를 전 세계 연구자와 투명하게 공유했다는 점이다.

현대 과학에서 데이터는 단순한 연구 부산물이 아니라, 패러다임 혁신을 이끄는 가장 핵심적인 동력이다. 우리나라도 방사광가속기, 중이온가속기, 양성자가속기를 비롯해 세계적 수준의 대형연구인프라를 구축·운영 중이다. 이들 가속기 연구장비에서만 연간 8페타바이트(PB) 이상 천문학적인 실험 데이터 생산이 예측된다.

그러나 이 거대한 데이터를 안정적으로 저장하고 분석할 수 있는 국가 차원의 데이터 활용체계는 여전히 미흡하다. 현장에서는 연구자 개인 수준에서 데이터가 파편적으로 다뤄지며, 원시적인 관리 방식 탓에 귀중한 연구 시간을 낭비하는 일이 드물지 않다. 나아가 연구에 AI를 활용하려 해도, 정보기술(IT) 인프라와 양질의 데이터 부족이 발목을 잡는다. 수조원 예산이 투입된 첨단 인프라임에도 데이터 활용 체계 부재로 투자 효과가 반감되는 뼈아픈 현실이다.

반면 미국은 10여년 전부터 이 문제의 본질을 직시하고 국가적 차원에서 체계적으로 대비해 왔다. 2015년, 연구장비와 데이터센터를 연계해 실험 데이터를 실시간으로 분석하고 환류하는 '슈퍼퍼실리티' 개념을 구체화했다. 이후 미국 에너지부(DOE)는 연구시설장비-데이터-컴퓨팅을 유기적으로 엮는 '통합연구인프라(IRI)' 구상으로 발전시켰고, 2023년부터 3억달러 이상을 투입해 IRI의 핵심 요소인 '고성능데이터센터' 구축을 추진하고 있다.

최근에는 AI 기반 과학 혁신 전략인 '제네시스 미션'을 출범시켜 '아메리칸 사이언스 클라우드(AmSC)'를 통한 개방형 데이터·AI 생태계를 조성하고 있다. 단순한 연산 자원 확충에 그치지 않고, 연구인프라 연계 체계가 AI 전환의 핵심 기반임을 꿰뚫어 보고 데이터 생태계를 함께 닦아온 결과다.

최근 우리나라도 'AI 기반의 과학적 발견 혁신(AI for Science)' 'K문샷' 등 AI 기반 과학혁신 전략을 추진하며 GPU 확충에 나서고 있다. 그러나 AI는 결국 데이터로 훈련하고 검증되며 혁신을 창출한다는 근본 명제를 간과해선 안 된다. 강력한 연산 자원만큼이나 AI의 원료인 데이터를 연구자들이 자유롭게 활용할 수 있는 플레이그라운드가 절실하다.

현재 바이오, 소재 등 분야별로 연구 데이터 플랫폼이 운영되나, 대형연구인프라의 실험 데이터를 전주기에 걸쳐 수집·저장·분석하는 활용체계는 미흡한 실정이다. 데이터 관리가 파편화돼 있고 통합 분석·활용 환경이 미흡한 상황에서, 인프라 간 융합 연구나 AI 기술 접목은 현실적 장벽에 부딪힐 수밖에 없다.

AI for Science를 실현하려면 'Data for AI' 체계를 반드시 함께 다져야 한다. 대용량 실험 데이터가 쏟아지는 대형인프라의 특성을 반영한 국가 단위 활용 체계가 시급하다. 이를 위해 장비 운영 데이터 및 실험 데이터 등 다양한 데이터의 통합적 활용, 연구장비와 정합적인 데이터 수집·관리 체계, 사후 분석 뿐만 아니라 제한된 실험 시간 이내에 분석·피드백이 이뤄지는 실험-분석 연계 체계 등 대형연구인프라의 데이터 특성을 고려할 필요가 있다.

미국이 슈퍼퍼실리티에서 IRI, 고성능데이터센터, 제네시스미션으로 진화해 온 궤적은 지금 우리가 나아가야 할 이정표를 제시한다. 국가 예산으로 구축된 대형연구인프라의 잠재력을 온전히 끌어내고, 다음 세기의 과학 패권을 우리 손으로 주도하기 위해 데이터 활용체계와의 공진화가 필요하다. 인프라의 규모를 넘어, 데이터의 흐름을 장악하는 국가가 미래 과학의 진정한 승자가 될 것이다.

조규진 한국과학기술정보연구원(KISTI) 대용량데이터허브센터장 kcho@kisti.re.kr