이노크라스-KAIST, DNA 언어모델 효율 높인 'DNAChunker' 공개…ICML(국제머신러닝학회) 2026 발표

사진=이노크라스
사진=이노크라스

전장 유전체 데이터와 자체 분석 기술을 바탕으로 정밀의료 혁신을 선도하는 바이오인포매틱스 전문기업 이노크라스가 KAIST와 공동 수행한 연구 결과가 국제머신러닝학회(ICML) 2026 정규 논문으로 채택됐다. 논문 제목은 “DNAChunker: Learnable Tokenization for DNA Language Models”다.

ICML은 인공지능과 머신러닝 분야의 대표적인 국제 학술대회 중 하나로, 매년 전 세계 연구기관과 기업들이 최신 연구 성과를 발표하는 자리로 알려져 있다.

연구진이 개발한 DNAChunker는 DNA 언어모델에 적용되는 학습형 적응 토크나이저 기술이다. 이 기술은 유전체 서열을 미리 정해진 길이로 나누는 대신, 생물학적 의미를 반영한 가변 길이 단위로 분절해 처리한다. 기존 DNA 언어모델이 고정된 규칙에 따라 서열을 분석했다면, DNAChunker는 유전 정보의 맥락을 학습해 보다 적절한 단위로 유전 코드를 구성함으로써 유전체 정보를 효율적으로 표현할 수 있도록 설계됐다.

연구 결과 DNAChunker는 약 12억 개 파라미터 규모의 최신 DNA 언어모델과 유사한 수준의 정확도를 기록했다. 반면 모델 규모는 1억 7,200만 파라미터 수준에 불과해 기존 대비 7배 이상 작은 크기로 동일 수준의 성능을 구현했다. 연구진은 이를 통해 대규모 유전체 연구와 중개 연구, 임상 적용 분야에서 AI 기반 유전체 분석 기술의 활용 가능성을 높일 수 있을 것으로 보고 있다.

이노크라스 CIO이자 공동 연구책임자인 이원철 박사는 “DNA 언어모델의 성능은 유전체 데이터를 어떤 방식으로 표현해 입력하느냐에 큰 영향을 받는다”며 “DNAChunker는 학습 가능한 토크나이저 구조를 통해 후속 유전체 분석 모델의 정확성과 효율성을 향상시킬 수 있는 기반 기술”이라고 설명했다.

이노크라스의 서제희 대표이사는 “이번 ICML 채택은 KAIST와의 협력을 통해 다양한 암종의 수천 개 전장 유전체로 학습 중인 이노크라스의 '암 파운데이션 모델(Cancer Foundation Model)' 개발에 있어 중요한 이정표”라며, “DNAChunker는 이러한 비전을 뒷받침하는, 생물학적 정보가 반영된 유전체 표현(genome representation) 계층을 제공함으로써, 파운데이션 모델이 단순한 패턴 인식 단계를 넘어 임상적으로 의미 있는 암 해석으로 나아가도록 돕는다. 이노크라스는 KAIST와 함께 전장 유전체 기반 AI의 정확성과 효율성, 확장성을 한층 강화할 핵심 기술을 지속적으로 발전시켜 나갈 것”이라고 말했다.

본 연구에서 KAIST는 핵심 알고리즘 설계, 모델 구현 및 검증을 주도했으며, 이노크라스는 대규모 컴퓨팅 자원과 함께 핵심 기술 아이디어, 그리고 모델을 실제 임상 환경에 부합하도록 정렬하기 위한 검증 작업을 담당했다.

본 논문의 교신저자인 KAIST 안성수 교수와 한인수 교수는 “DNAChunker는 효과적인 DNA 언어모델을 구축하는 데 있어 서열 표현(sequence representation)이 핵심 과제임을 보여준다”며 “이노크라스와의 협력은 첨단 AI 방법론을 전장 유전체 분석의 규모 및 실용적 요구와 연결하는 데 큰 도움이 되었다”고 밝혔다.

이노크라스는 전장 유전체(Whole Genome) 데이터와 자체 분석 기술을 바탕으로 정밀의료의 새로운 기준을 제시하는 바이오인포매틱스 전문기업이다. 종양학 및 희귀질환 플랫폼은 포괄적인 전장 유전체 데이터와 고도화된 자동화 기술을 결합해, 진단과 연구를 가속화하고 환자 진료의 실질적 개선으로 이어지는 정제되고 실행 가능한(actionable) 인사이트를 대규모로 제공한다. 이노크라스는 미국 CLIA/CAP 인증 임상실험실을 운영하고 있으며, 세계 유수의 병원, 제약사, 연구기관과 협력하고 있다.

서희원 기자 shw@etnews.com