DGIST, 대용량 그래프 빅데이터 PC 한대로 처리하는 기술 개발

글자 작게 글자 크게 인쇄하기
E

인간 두뇌 신경망 데이터와 같은 대용량 그래프 데이터를 컴퓨터 한대로 처리할 수 있는 기술이 개발됐다.

김민수 대구경북과학기술원(DGIST) 정보통신융합공학전공 교수팀은 슈퍼컴퓨터로 처리하던 대용량 그래프 데이터를 한대의 PC로 처리할 수 있는 `GStream 2.0` 기술을 개발했다고 7일 밝혔다.

김 교수팀이 개발한 기술은 뇌과학, 인공지능, 사물인터넷(IoT), 웹, 소셜네트워크 등 다양한 분야에서 사용하는 그래프 형태 빅데이터를 두개의 GPU(그래픽카드의 핵심 칩)와 두개의 `PCI-e SSD`가 장착된 PC 한대로 초당 최대 20억개 처리속도로 2560억개 간선들을 처리할 수 있는 기술이다.

ⓒ게티이미지뱅크
<ⓒ게티이미지뱅크>

인간 뇌 신경망은 시냅스라 불리는 약 100조개 간선들로 구성돼 있다. 이 가운데 2560억개 간선들을 처리할 수 있는 `GStream 2.0`은 인간의 뇌 400분의 1크기에 해당하는 신경망 데이터를 처리할 수 있는 기술이다.

인간 두뇌 신경망은 복잡한 구조 특성상 여러 대의 컴퓨터에 나눠 저장할수록 일반적으로 통신비용과 메모리 사용량이 기하급수적으로 증가해 슈퍼컴퓨터를 사용하더라도 인간 두뇌의 1000분의 1 크기의 신경망조차 처리하는데 어려움을 겪어왔다.

현재 빅데이터 분석 성능이 가장 우수하다고 알려진 미국 카네기멜론대학교 그래프랩(GraphLab)은 480 CPU 코어, 2테라바이트(TB) 메모리, 5기가바이트(GB) 고속 네트워크를 갖춘 슈퍼컴퓨터에서 최대 320억개의 간선들로 구성된 그래프 형태의 데이터 처리에 1400초가 걸리고 있는 상황이다.

연구팀은 대용량 그래프 데이터를 여러 대의 컴퓨터 메모리에 나눠 저장하는 방식에서 벗어나 컴퓨터 한 대의 `PCI-e SSD`에 저장했다. SSD로부터 GPU 메모리에 비동기적 방식으로 스트리밍하면서 동시에 GPU의 수천개 계산 코어들을 이용해 데이터를 처리하는 새로운 접근 방법을 시도했다. 이를 통해 기존 통신비용 및 메모리 사용량 문제점을 해결했다.

DGIST, 대용량 그래프 빅데이터 PC 한대로 처리하는 기술 개발

그 결과 두 개의 GPU와 두 개의 PCI-e SSD를 장착한 컴퓨터 한 대 만으로 320억개 간선 규모 데이터를 500초 만에 처리했으며 최대 2560억개 간선 규모의 대용량 데이터를 처리했다.

김민수 교수는 “신경망 형태 빅데이터를 GPU와 SSD 기반으로 고속 처리할 수 있는 소프트웨어 기술을 확보했다”며 “뇌과학 및 인공지능 분야에서 사용되는 신경망 형태의 데이터 처리나 IoT 데이터 기반 사이버 보안 등에 활용할 수 있으며, 특히 초대규모 심층 인공신경망을 구현할 수 있는 기반 기술로 사용할 수 있을 것”이라고 말했다.

김민수 디지스트 교수
<김민수 디지스트 교수>

이번 연구 성과는 최근 미국 샌프란시스코에서 열린 데이터베이스 분야 세계적 학술대회인 `2016 ACM SIGMOD(시그모드)`에서 발표됐다.

대구=정재훈기자 jhoon@etnews.com

◆용어설명

PCI-e SSD : SSD(솔리드스테이트디스크)는 HDD(하드디스크)를 대체할 수 있는 고속의 보조기억장치로서 자기디스크 회전을 통해 정보를 기억하는 HDD와 달리 반도체를 이용해 데이터를 저장한다. PCI-e SSD(PCI 익스프레스 솔리드스테이트디스크)는 SSD의 속도를 보다 빠르게 개선한 SSD이다.