포스텍, 차세대 그래프 분석 엔진 'TurboLynx' 개발

포스텍(POSTECH)은 한욱신 컴퓨터공학과·인공지능대학원 교수, 컴퓨터공학과 통합과정 이태성 씨, 인공지능대학원 통합과정 하재현 씨 연구팀이 복잡하게 얽힌 데이터를 기존보다 최대 184배 빠르게 분석할 수 있는 엔진 '터보링크스(TurboLynx)'를 개발했다고 21일 밝혔다. 이번 성과는 데이터베이스 분야 국제 학술대회인 'VLDB 2026'에서 발표될 예정이다. 학회는 오는 8월 31일부터 9월 4일까지 미국 보스턴에서 열린다.

넷플릭스가 취향에 맞는 콘텐츠를 추천하고, 금융사가 수상한 거래를 찾아내며, 생성형 AI가 사람과 개념 사이의 연결을 이해하는 데 공통점이 있다. 바로 '관계'를 읽는 기술이다. 사람과 사람, 상품과 거래, 단어와 단어처럼 복잡하게 얽힌 연결 구조를 다루는 데이터를 '그래프 데이터'라고 한다. 마치 거미줄처럼 촘촘하게 이어진 정보의 망을 저장하고 분석하는 기술이다.

(왼쪽부터) 한욱신 교수, 통합과정 이태성·하재현 씨
(왼쪽부터) 한욱신 교수, 통합과정 이태성·하재현 씨

문제는 현실의 데이터가 워낙 다양하고 제멋대로라는 데 있다. 기업 환경에서는 데이터의 형태가 수시로 바뀌고, 새로운 항목이 언제든 추가된다. 이처럼 형식이 미리 정해지지 않은 '스키마 없는(schemaless)' 데이터는 유연하다는 장점이 있지만, 기존 시스템들은 이런 데이터를 집계하거나 통계를 내는 분석 작업에서는 속도가 크게 떨어지는 문제가 있었다. 손님마다 주문서 양식이 제각각인 식당에서, 하루 매출을 집계하려면 하나하나 손으로 다시 읽어야 하는 상황과 같다.

연구팀은 이 문제를 해결하기 위해 데이터를 저장하는 방식부터 질의를 처리하고 최적화하는 방식까지 시스템 전체를 새롭게 설계했다. 핵심은 '비슷한 데이터끼리 모아 한 번에 처리하자'라는 아이디어다.

이번에 개발한 엔진 '터보링크스'는 성격이 비슷한 데이터들을 자동으로 그룹화한 뒤, 분석에 유리한 열(column) 단위로 저장한다. 덕분에 컴퓨터가 데이터를 읽을 때마다 형태를 일일이 해석할 필요가 없어지고, 불필요한 메모리 낭비도 크게 줄었다. 또한, 여러 단계를 거치는 복잡한 탐색 과정에서 중간 결과가 불필요하게 커지는 문제를 줄였고, 분석 질의도 효율적으로 실행할 수 있도록 개선했다.

실제 성능은 숫자로 증명됐다. 국제 표준 벤치마크 평가에서 '터보링크스'는 기존 그래프 데이터베이스보다 약 184배, 관계형 데이터베이스 방식 대비 최대 약 41배 빠른 속도를 기록했다. 특히 위키피디아 기반 대규모 지식그래프 데이터에서는 가장 성능이 좋은 경쟁 시스템보다 약 19배 높은 성능을 보이며 실제 산업 환경에서도 활용 가능성을 입증했다.

이번 기술은 생성형 AI, 추천 시스템, 금융 보안, 바이오 데이터 분석처럼 복잡한 연결 관계를 다루는 분야가 급격히 늘어나는 상황에서, 데이터를 실시간에 가깝게 분석할 수 있는 기반 기술이 될 수 있다. 영화 속 수사관이 거대한 범죄 조직의 관계망을 순식간에 추적하듯, 앞으로는 기업도 방대한 데이터 속 연결 구조를 훨씬 빠르게 읽고 활용할 수 있게 되는 셈이다.

한욱신 교수는 “기업들이 보유한 복잡한 그래프 데이터를 실제 분석과 서비스에 더 폭넓게 활용하는 데 기여할 것으로 기대한다”라며, “향후 실시간 트랜잭션 처리와 에이전트용 장기 메모리로 활용될 수 있도록 후속 연구를 이어갈 계획”이라고 밝혔다.

이번 시스템은 업계 표준 그래프 질의 언어인 '사이퍼(Cypher)'를 지원하며, 일반 사용자도 자연어 질의로 시스템과 대화할 수 있도록 지원하고 있다. 또한 오픈소스로 공개되어 프로젝트 홈페이지를 통해 관련 정보를 확인하고 사용할 수 있다.

한편, 이번 연구는 과학기술정보통신부 정보통신기획평가원 '빅그래프의 지능적 처리를 위한 분산 그래프 DBMS 개발' 사업, 한국연구재단 기초연구사업 지원으로 수행됐다. 자연어 질의 변환 지원 연구는 과학기술정보통신부 정보통신기획평가원 '대화 가능하고 자동으로 튜닝하는 DBMS의 개발' 스타랩 사업 지원을 받아 수행됐다.

포항=정재훈 기자 jhoon@etnews.com