남호정 GIST 교수팀, 신약 후보물질 탐색 AI 모델 개발

타 딥러닝 모델보다 더 높은 예측력 제시…단백질 3차원 구조 정보 없이 신약 개발 가능

광주과학기술원(GIST·총장 김기선)은 남호정 전기전자컴퓨터공학부 교수팀이 단백질 서열 기반으로 약물과 표적 단백질의 결합지역 및 상호작용을 예측(HoTS) 하는 인공지능(AI) 기술을 개발했다고 21일 밝혔다.

신약개발 후보 물질 발굴단계는 표적 단백질에 활성을 보이는 화합물을 찾아내는 초기 과정으로 수만-수십만개 화합물로부터 표적 단백질에 활성을 보이는 화합물을 찾아야 하는 힘겨움의 연속이다. 이러한 상황을 해결하기 위해 다양한 약물-표적 단백질 상호작용 예측 AI 모델이 개발됐다. 하지만 좋은 예측 성능에도 불구, 예측 결과에 대한 설명력이 부족해 실제 신약 개발에서 적극적으로 도입하지 않고 있다.

HoTS 모델 개요. HoTS 모델의 학습 데이터셋, 모델 구조, 평가 및 분석 방법을 종합적으로 보여주고 있다.
HoTS 모델 개요. HoTS 모델의 학습 데이터셋, 모델 구조, 평가 및 분석 방법을 종합적으로 보여주고 있다.
HoTS의 결합지역 예측과 트랜스포머의 Attention 분포. HoTS의 트랜스포머가 단백질의 결합지역을 중점적으로 고려하고 있음을 보여준다.
HoTS의 결합지역 예측과 트랜스포머의 Attention 분포. HoTS의 트랜스포머가 단백질의 결합지역을 중점적으로 고려하고 있음을 보여준다.

남 교수팀이 개발한 모델인 HoTS는 약물-표적 단백질이 결합하는 부분을 사전 학습한 뒤 예측함으로써 높은 정확도와 함께 약물-표적 단백질 상호작용 예측의 근거도 함께 제시한다. 신약개발 연구자에게 보다 신뢰할 수 있는 유효화합물 예측 결과를 제시해 줄 수 있다.

이번 연구는 대규모 단백질 3차원 구조 데이터베이스로부터 화합물과의 결합지역을 추출하여 합성곱 신경망(CNN)과 트랜스포머 기반 딥러닝 모델로 단백질 서열상의 결합지역을 예측할 수 있도록 학습됐다. 결합지역을 학습한 뒤 해당 학습을 기반으로 더 많은 트랜스포머 계층을 통해 약물-표적 단백질 상호작용을 예측할 수 있으며 딥러닝 모델이 결합지역과 함께 약물-표적 상호작용을 예측할 수 있게 됐다.

연구팀은 HoTS 모델이 다른 딥러닝 모델보다 더 높은 예측력을 보여줬으며 결합지역 예측도 단백질 서열 정보만을 사용함에도 불구, 3차원 구조 기반 타 예측 모델과 비슷한 수준의 성능을 확인했다.

남호정 GIST 교수(왼쪽)와 이인구 GIST 석박통합과정생.
남호정 GIST 교수(왼쪽)와 이인구 GIST 석박통합과정생.

남호정 교수는 “이번 연구성과는 신약 개발 단계 중 유효화합물 발굴의 효율성을 크게 높여주는 기술이며, 무엇보다 3차원 구조 정보가 없는 신규 표적 단백질에 대한 신약 개발의 가능성을 열어줬다는데 의의가 있다”면서 “향후 해당 모델을 통해 약 개발 단계에서의 빠르고 효율적인 유효화합물 발굴이 가능할 수 있을 것으로 기대된다”고 말했다.

남 교수는 “천문학적 시간과 비용이 필요한 신약 개발 산업은 AI 기술을 활용해 혁명적 변화를 이끌 수 있는 산업으로 주목받고 있다”며 “AI 이용해 신약 후보물질 탐색 시간을 단축함으로써 결과적으로 신약개발에 소요 기간과 비용을 획기적으로 줄일 수 있을 것”이라고 강조했다.

남 교수팀이 수행한 이번 연구는 '설명가능 AI 기반 약물 후보의 독성 및 부작용 예측 시스템 개발'(한국연구재단 중견연구자지원사업), '지스트-전남대학교병원 공동연구과제', 'GRI(GIST 연구원) 생명노화연구소' 사업 지원으로 이뤄졌다. 연구결과는 '화학정보학 저널' 온라인에 최근 게재됐다.

광주=김한식기자 hskim@etnews.com