DGIST, 초대규모 그래프 데이터 합성 원천기술 개발

초대규모 그래프 데이터를 쉽게 합성할 수 있는 원천기술이 개발됐다. 인공지능(AI)과 뇌과학, 생명과학 분야의 방대한 그래프 데이터 처리를 통한 신기술 개발에 유용하게 활용될 것으로 기대된다.

대구경북과학기술원(DGIST)은 김민수 정보통신융합공학전공 교수연구팀이 1조 간선으로 구성된 초대규모 그래프 데이터를 컴퓨터 10대로 2시간 만에 합성할 수 있는 '트릴리온지' 기술을 개발했다고 31일 밝혔다.

ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

그래프 데이터 처리 기술은 뇌과학, AI, 사물인터넷(IoT), 웹, 쇼셜네트워크, 생명과학 등 다양한 분야에서 신경, 사물, 사람들간 관계를 표현하는데 활용하는 기술이다. 이런 그래프 데이터 처리 기술의 성능을 정확하게 측정하기 위해서는 대규모 그래프 데이터 합성기술이 반드시 필요하다.

ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

생체내 단백질간 상호작용 그래프나 SNS 그래프 등 그래프 크기가 다양한 '무척도' 특성을 지닌 그래프 데이터를 합성하는 기술로는 현재 네트워크통신 방식을 이용하는데 합성 데이터 규모가 제한적이고 합성 속도가 느리다는 단점이 있다.

김 교수팀이 개발한 트릴리온지 기술은 네트워크 통신 없이도 훨씬 더 큰 규모 그래프 데이터를 빠른 속도로 합성할 수 있다. 연구팀이 세운 '재귀 벡터 모델'이라는 독창적 이론으로 구현한 디스크 기반 기술이다.

트릴리온지 기술은 10대의 가정용 PC를 활용해 80억개의 간선으로 구성된 그래프 데이터를 72초만에 합성했다. 규모면에서는 최대 4조개의 간선으로 구성된 그래프 데이터를 합성할 수 있다. 현존하는 최고 그래프 데이터 합성 기술인 '그래프500(Graph500)'보다 합성 속도면에서는 140배나 빠르고, 합성 규모면에서는 500배나 향상됐다.

지금까지 합성된 세계 최대 규모 그래프 데이터는 미국 IBM 슈퍼컴퓨터 세콰이어(CPU 코어 160만개, 메모리 1.5 페타바이트)를 활용, '그래프500' 기술로 합성한 32조 간선 규모 그래프 데이터이다.

이를 트릴리온지 기술을 활용하면 80대 컴퓨터로 동일한 규모의 데이터를 합성할 수 있다. 분산병렬 처리기술 특성(강확장성)으로 인해 100조 간선 규모로 알려진 인간 뇌 신경망 그래프 데이터는 약 240대의 PC로 합성 가능할 것으로 전망된다.

김민수 DGIST 정보통신융합전공 교수
김민수 DGIST 정보통신융합전공 교수

김민수 교수는 “AI와 뇌과학 분야에서 점차 중요해지고 있는 그래프 데이터를 초대규모, 초고속으로 합성할 수 있는 원천기술을 확보했다”면서 “산업 측면에서 그래프 빅데이터를 분석 및 처리하는 기술들에서 표준기술로 활용될 수 있을 것으로 기대한다”고 말했다.

이번 연구 성과는 최근 미국 시카고에서 열린 데이터베이스 최고 권위 학술대회인 '2017 ACM SIGMOD'에서 발표됐다. 정보통신융합공학전공 박힘찬 박사과정 학생이 제1저자로, 김민수 교수가 교신저자로 참여했다.【사진4】

대구=정재훈기자 jhoon@etnews.com