[KISTI과학향기]생물학 혁신, 단백질 구조 예측하는 AI 시대

글자 작게 글자 크게 인쇄하기

과학에서 위대한 발견은 탁월한 방법과 엄청난 집념을 거름 삼아 탄생한다. 그리고 그 과정 속에는 사람들의 희망과 감동, 불안과 우려가 뒤섞여 있다. 최근 이러한 만감이 교차될 법한 과학 뉴스가 연달아 소개되었다. 사람의 몸을 구성하는 단백질, 그리고 삶을 편리하게 만들어주면서도 우리 일자리를 위협하는 인공지능(AI)에 관련된 이야기다.

◇알파폴드2, 단백질 구조 예측하는 AI

지난 2020년 11월, 알파고를 개발한 것으로 잘 알려진 AI 회사 구글 딥마인드가 '알파폴드2(AlphaFold2)'를 발표했다. 단백질 구조 예측 AI인 알파폴드2는 작년 12월에 있었던 단백질 구조 예측 능력 평가 대회(CASP)에서 92.4점으로 1위를 기록했다. 일부 테스트에서 2위와의 격차가 25점까지도 벌어졌던 것을 감안하면 엄청난 성과임이 분명했다. 딥마인드를 이끄는 데미스 허사비스는 오랫동안 '단백질 접힘' 난제에 관해 관심을 가져왔다며 개인적인 소회를 밝히면서 알파폴드2가 지금껏 진행한 프로젝트 중 가장 대단한 일이라고 이 성과의 중요성을 강조했다.

우리 몸의 주요 구성 성분이자 신체 내 모든 현상에 관여하는 단백질은 생김새가 중요하다. 단백질의 입체 구조, 즉 모양이 곧 단백질의 기능을 결정짓기 때문이다. 단백질은 유전정보에 따라 아미노산들이 연결되어 만들어진다. 이때 이 긴 사슬의 아미노산 분자들이 서로 상호작용하는 방식과 주변 환경 조건에 따라 접히는 모양이 달라진다. 많은 변수가 관여함에도 아미노산 서열을 기반으로 단백질의 구조를 파악할 수 있다면, 이 정보는 효소 특성 파악이나 약물 영향 평가 등 다양한 분야에 활용될 수 있다.

단백질의 3차원 구조. 아미노산이 이토록 복잡하게 접혀 단백질을 이루기 때문에 단백질 구조를 밝혀내는 것은 굉장히 어려웠다. (출처: shutterstock)
<단백질의 3차원 구조. 아미노산이 이토록 복잡하게 접혀 단백질을 이루기 때문에 단백질 구조를 밝혀내는 것은 굉장히 어려웠다. (출처: shutterstock)>

그동안 과학자들은 X선 결정법이나 저온전자현미경법(Cryo-EM) 등의 실험 결과를 이용해 단백질의 구조를 직접 분석하여 지금까지 10만여 종의 구조를 해독했다. 하지만 이러한 분석법은 시간이 너무 오래 걸린다는 단점이 있었다. 이에 대한 보완책이 컴퓨터를 이용해 단백질 내 상호작용을 계산하는 분석법이었다.

알파폴드2의 약진은 기존 방법과 달리 AI를 도입한 덕에 이루어졌다. 이 프로그램은 먼저 그동안 축적된 단백질 구조 데이터와 아미노산 배열을 학습한다. 그다음 이를 토대로 하여 새로운 아미노산 서열로부터 구조를 예측해낸다. 이전 방식이 분석하는 데 몇 주에서 몇 달까지 소요하던 것에 비해, 딥러닝과 텐션 알고리즘을 결합한 알파폴드2는 고작 하루 이틀 만에 결과를 내놓았다.

알파폴드2의 놀라운 성적은 생물학계의 모든 이목을 집중시켰다. 그러나 딥마인드측은 이러한 폭발적인 관심과 궁금증에 즉각적으로 호응하지 못했다. CASP 이후 알파폴드2에 관한 자세한 발표를 미뤄 온 것이다. 이 때문에 한때 학계에서는 딥마인드의 연구 독점을 우려하는 분위기가 조성되기도 했다.

◇또 다른 단백직 구조 예측 AI인 로제타폴드, 단백질 연구의 새 장을 열 것

흥미롭게도, 또 다른 단백질 구조 예측 인공지능인 '로제타폴드(RoseTTAFold)'는 이러한 배경에서 탄생했다. 알파폴드2의 성과를 눈여겨보던 수많은 이들 중에는 미국 워싱턴대 단백질 디자인 연구소의 데이비드 베이커(David Baker) 교수팀이 있었다. 이 연구진은 알파폴드2에 대한 상세 정보가 공개되길 기다리던 중, 발표가 기약 없이 늦어지자 당시까지 알파폴드2에 관해 알려진 내용을 바탕으로 알파폴드2와 같은 프로그램을 직접 만들어 재현해 보기 했다. AI 엔지니어링 전문가 한 명 없이 시작된, 다소 무모한 도전이었다.

프로젝트를 주도한 백민경 박사후 연구원은 로제타폴드를 설명하는 자리에서, 인간 실험 정확도와 엇비슷한 성능의 알파폴드2의 성과를 보면서 오랜 기간 심혈을 기울였던 자기 연구가 쓸모 없어진 것은 아닐지, 자신이 일자리를 잃게 되는 것은 아닐지 걱정했다고 솔직한 심정을 토로했다. 하지만 그렇다고 포기한 채 가만히 있을 수만은 없었기 때문에 이 프로젝트를 시작한 것이다.

결과적으로 로제타폴드 프로젝트는 지난 7월 15일, 알파폴드2와 근접한 성능을 가진 로제타폴드를 발표하면서 성공을 거두었다. 그리고 공교롭게도 같은 날, 딥마인드측은 알파폴드2의 개발 과정이 담긴 논문과 소스코드를 공개했다. 또한 사람들의 우려와 달리 그로부터 일주일 후, 딥마인드는 알파폴드2로 만든 단백질 구조 예측 데이터베이스 사이트를 열었다.

로제타폴드가 예측한 단백질의 3차원 구조. (출처: 로제타폴드)
<로제타폴드가 예측한 단백질의 3차원 구조. (출처: 로제타폴드)>

이 거대한 데이터베이스는 누구든 쉽게 이용할 수 있으며, 인간 단백질 98.5%를 포함한 여러 유기체 단백질 구조에 대한 3D 예측 모델을 제공한다. 현재까지 딥마인드가 알파폴드를 이용해 새로 예측한 단백질 구조는 약 35만 개이며, 딥마인드측은 여기서 나아가 앞으로 몇 달 후에는 1억 개 이상의 단백질 구조를 예측해 발표하기를 계획하고 있다고 밝혔다. 지금까지 세상에 알려진 모든 단백질이 약 2억 개인 점을 고려하면 그중 절반의 비밀이 풀리는 셈이다.

현재 알파폴드2는 일회용 플라스틱 분해를 가속화하는 효소 연구, 희귀 유전 질환 치료제 개발 등, 우리에게 희망이 되는 과제에 활용될 것으로 알려졌다. 아직까지는 딥마인드 측에서 유료화 계획에 대해 언급한 바가 없기 때문에, 앞으로 딥마인드의 행보를 정확히 예측하기는 어렵다. 다만 이전 과학자들이 헌신한 결과를 학습해야만 작동할 수 있는 딥러닝 알고리즘의 특성상, 지금처럼 많은 사람이 과학의 혜택을 누릴 수 있다면 더욱 바람직할 것이다.

글: 정유희 과학칼럼니스트