[테마특강]바이오인포매틱스의 IT기반 기술

발행일 : 2003-06-10 14:31

관련 통계자료 다운로드 바이오인포매틱스 기술 개념도

◆기고자-박선희 한국전자통신연구원 바이오정보연구팀장 shp@etri.re.kr

　*기고자 약력:△81년 서울대 사범대 수학과 졸 △82∼89년 미국 텍사스대 수학과 석사과정 및 박사과정 △90∼94년 미국 텍사스대, 이탈리아 ISTP, 서울대 이론물리센터 박사후 과정 △현재 ETRI 근무

　

　1.관심끄는 바이오인포매틱스

　바이오인포매틱스는 기술을 개발하는 입장에 따라 다양한 형태로 정의할 수 있다.

　IT 기반의 바이오인포매틱스는 정보통신 인프라와 IT기술을 기반으로 분산돼 있는 대용량의 바이오 데이터 및 문헌정보를 통합적으로 관리, 분석 및 처리해 각종 바이오 정보 활용분야(신약개발·의료진단·농산물개량 등)에 효율적으로 응용, 서비스하기 위한 IT-BT융합 핵심기반 요소기술을 의미한다.

　포스트 게놈시대에는 게놈시대에 구축된 데이터로부터 고부가가치의 유용한 지식정보를 추출하고 가공하는 기술이 핵심 기술로 인식되고 있다.

　이를 위해 효율적인 통합분석 기술, 다양한 형태로 분산돼 있는 바이오 데이터 및 문헌정보를 통합해 연동 및 검색, 관리하는 기술, 페타바이트급으로 증가하고 있는 바이오 정보를 SAN, NAS 등의 저장장치를 활용해 저장관리하는 기술, 대용량 데이터를 빠르게 분석할 수 있도록 하는 초고속 병렬 컴퓨팅 기술, 그리고 고부가 가치 산업인 신약개발 및 의료진단 분야 등의 산업 분야에 효과적으로 활용할 수 있도록 하는 분야별 응용지원 기술 등의 IT에 기반한 바이오인포매틱스 개발이 급증하고 있다.

　원시 데이터의 형태에 따라 매우 다양하게 이뤄져 있는 IT 기반 바이오인포매틱스 기반 기술의 근간은 전산학·통계학·언어처리·물리학 등 거의 모든 학문 분야에 걸쳐있다.

　

　2.바이오인포매틱스의 요소기술

◇바이오데이터마이닝 기술의 연구

　웟슨, 크릭 그리고 프랭클린이 생물체의 기본 구성단위인 DNA 구조를 밝힌 지 50년이 되는 지금 인간을 비롯한 모든 생명체의 DNA 서열을 알아내는 작업이 활발하게 진행되고 있고 가까운 미래에는 개인의 염색체 DNA 서열을 알려주는 서비스가 보편화될 전망이다.

　이렇게 대량으로 쏟아지는 서열 데이터를 분석해 유전체 각 부분의 기능을 판단하고 예측하는 서열분석 연구는 여러 분야에 응용될 수 있는 바이오인포매틱스의 가장 기본적인 연구 분야다.

　한번에 밝혀내기 힘든 긴 부분을 판독이 가능한 작은 조각으로 만든 뒤 다시 원래대로 복원해 내는 기술인 조각서열 어셈블리에서 셀렐라는 인간의 DNA 서열을 밝히기 위해 전체 유전체를 모두 작은 조각으로 만든 후 조립하는 방법인 셧건 방식을 사용해 기존 방법을 능가하는 개가를 올렸다.

　여기에는 전산학, 특히 문자열 연구 분야의 다양한 알고리듬이 적용된다. 대표적으로 다중서열정렬·쌍정렬·반복부분 찾기 등에 이용된다.

　유전자가 만들어내는 단백질 서열에서 모티브는 특정한 기능을 하게 되는 단백질 서열의 보존된 부위를 말한다. 이 모티브는 주로 발현조절부위, 즉 유전자의 앞부분에 위치한 여러 특정한 부분을 찾기 위해 많이 쓰인다. 대표적으로 프로모터 탐색 알고리듬에 많이 쓰이게 되는데 이는 특정한 기능을 하는 유전자의 프로모터에는 특정한 염기서열들이 포함돼 있다는 사실을 이용한 것이다. 이러한 부위들에 대한 연구를 위해서 근사문자열매칭 알고리듬, 다중서열정렬 알고리듬, 은닉 마르코프 모델, 신경망 기법 등의 IT가 활용된다.

　1996년 미국 스탠퍼드 대학에서 DNA 칩 기술이 개발된 이후로 수천∼수만개의 유전자 발현 실험이 한번에 가능하게 됐고 다양한 환경 하에서 수많은 유전자들의 발현 양상에 대한 데이터를 얻을 수 있게 됐다.

　그러나 문제는 이렇게 얻어진 대규모의 칩 발현 데이터를 어떻게 효율적으로 분석해 유용한 생물학적 정보를 얻을 수 있는가 하는 것이다. 현재 일반적으로 칩 발현 데이터를 활용하는 분야로서 하나의 칩 위에 심어진 수천 또는 수만개의 유전자 집합에 대해 여러 다른 조건 하에서의 발현 양상을 측정한 후, 각 유전자의 측정된 발현 프로필을 기반으로 유사한 발현 양상을 보이는 유전자 그룹을 찾아냄으로써 유사한 기능을 지닌 유전자들을 알아내거나 기능이 밝혀지지 않은 유전자의 기능을 유추하는 것이다.

　이를 위해 DNA 칩 영상을 처리해 각 유전자의 발현 정도를 수치화하기 위한 칩 이미지 처리 기술, 품질 제어 등이 필요하며 수치화된 유전자 발현 프로필을 분석해 유사한 유전자 그룹을 찾아내기 위해 다양한 클러스터링 기술이 사용되고 있다.

　칩 위에 심어진 유전자들간 상호조절 관계를 밝혀내어 유전자들의 네트워크 적인 기능을 캐는 것은 매우 중요한 분야인데 이러한 유전자 조절 네트워크를 밝혀내기 위해서는 동일한 유전자 집합에 대해 여러 시간대별에 실험한 데이터 등을 분석하는 기술이 필요하다.

　생물학 관련 분야의 논문이나 지식베이스 등에 있는 텍스트도 유용한 정보를 줄 수 있는 좋은 소스가 되는데 이를 바이오 텍스트 마이닝이라고 한다.

　바이오 텍스트 마이닝을 위한 중요 요소 기술로는 자연어 처리기술, 정보추출기술, 정보검색기술 등이 있다.

　방대한 바이오 정보로부터 보다 빠르게 사용자들이 원하는 정보를 선택적으로 검색해 사용할 수 있도록 하기 위해 바이오 문헌을 대상으로 자연어 처리 및 정보추출 기술을 적용하고 이에 기본적인 정보검색 기술을 결합해 정렬된 데이터를 제공하는 것이 바로 바이오 텍스트 마이닝의 연구 목적이다.

　이러한 바이오 텍스트 마이닝 기술을 이용해 바이오 문헌 마이닝 기술은 유전자 및 단백질의 위치와 구조 예측, 중요 유전자 패턴 발견 등의 전반적인 생명정보학 연구분야에서 기반 지식을 제공하기 위한 사전분석 도구 및 축적된 다양한 바이오 정보들을 개념적으로 연결시켜 새로운 정보를 제공하는 바이오 지식 생성도구의 핵심 기술로 쓰여질 수 있다. 생명과학 연구결과의 산물인 바이오 문헌을 이용해 유전자간·단백질간의 상호관계, 각종 질병의 증상 및 이들의 관계 등 생체내에서 일어나는 각종 현상을 예측할 수 있는 것이다.

　

◇바이오 데이터 통합관리 기술의 발전

　현재 각종 생물학 분야에서는 빠른 속도로 증가하는 다양한 정보들을 서로 공유하려는 공감대가 형성되고 있는 추세다.

　하지만 의약개발·유전학 등의 각 분야에서는 자신들만의 필요성에 따라 고유한 데이터베이스(DB)를 구축해 왔으며 또한 아주 특성화된 상호 작용과 분석 도구들이 이들을 바탕으로 구축되고 발전돼왔다. 그 결과 이들 정보 서비스는 서로 분산돼 있고 이질의 데이터 형태를 가지며, 서로 낮은 의미로 연관되어 있다.

　이렇게 다양하고 복잡한 방대한 데이터로부터 생물학자들이 가능한 많은 공개 DB 소스를 통해 자신의 실험을 검증하는 과정을 보다 자동화하고 단순화시키기 위해 정보들을 통합하는 여러 DB 기술이 도입되고 있다.

　가장 대표적인 방법으로 데이터웨어하우스 기술을 이용한 물리적 통합이 있는데 이는 성능면에서 장점이 있지만 스토리지 비용의 증가, 원 데이터 소스에 대한 다양한 분석기능 적용의 어려움, 계속 변경되는 데이터 소스 변경에 대한 즉각적인 반영의 어려움, 그리고 새로운 분석 서비스를 위해서는 기존의 모델과 구조가 변경돼야 한다는 큰 제약이 있다.

　최근에는 이런 제약을 극복하기 위해 생물학자가 바라보는 개념적인 모델과 실제 DB 소스가 제공하는 물리적인 모델을 구분하고 이들간 문법적·의미적인 차이를 해소하는 사상 모델로 이뤄지는 3단계 모델 구조가 각광을 받고 있다. 이런 구조의 장점은 생물학자들이 각 데이터 소스의 어떠한 지식과도 독립적으로 질의를 표현해 그 질의에 대한 답을 찾는 질의 실행 계획과 최적화에도 유리하다.

　현재 DB 소스에 대한 통합은 실험실 혹은 연구센터에서 도출된 데이터를 검증하고 인증받기 위한 것에서부터, 신약개발 등을 위해 각 분야에서 누적된 다양한 정보를 도출하고 예측하기 위한 것과 같이 광범위하게 요구되고 있는 실정이다.

　이를 위한 통합 시스템은 각 DB 소스에 대한 다양성과 지속적인 확장성, 검색 성능의 보장, 생물학자의 경험지식 표현 등 수용이 가장 중요하다고 할 수 있다.

　

　3.IT산업의 제2도약 모델

　이와 같이 다양한 데이터로부터 산업에 유용한 고부가가치의 정보를 이끌어 내기 위해서는 거의 모든 IT가 접목된다.

　차세대 산업을 이끌 바이오 산업을 활성화하기 위해 우리가 할 수 있는 최적화된 방법은 국내의 강한 IT를 이용해야 한다. 미국과 같은 선진국의 경우 BT 관련 기초 연구에 장기간의 시간과 연구비를 투자, 그 결과 많은 바이오 정보가 축적돼 있으나 우리나라의 경우 최근에서야 연구 개발이 시작됐으며 존재하는 바이오 정보도 산발적으로 펼쳐져 있다.

　우리나라의 IT 및 인프라는 세계적인 기반을 보유하고 있으므로 이를 활용해 고부가가치의 정보를 추출해 낼 수 있다면 바이오 산업뿐 아니라 침체 상태에 접어든 IT산업에도 새로운 산업 분야를 열 것으로 기대된다.