[알파고 기획]알파고 방대한 연산능력 비밀은

알파고는 수준 높은 컴퓨팅 시스템과 클라우드 기술의 정수다. 수많은 시행착오를 거쳐 탄생한 하드웨어(HW) 설계 노하우와 효율성을 극대화한 클라우드 컴퓨팅은 알파고 승리의 숨은 공신이다.

구글 데이터센터 전경 <자료:AP>
구글 데이터센터 전경 <자료:AP>

인공지능 바둑 프로그램 알파고는 총 1202개 중앙처리장치(CPU), 176개 그래픽처리장치(GPU)가 탑재된 시스템으로 구현된다. CPU 개당 1초에 1000회 이상 시뮬레이션한다. 서버는 여러 대가 하나의 네트워크로 연결돼 분산 처리하는 클러스터 방식이다. 인텔, 엔비디아 등에 핵심 부품은 공급받지만 최종 구현을 위한 설계는 직접 한다. 이렇게 완성된 시스템은 대기업, 연구소에서 데이터 분석이나 특정 분야 시뮬레이션을 위해 구축한 소규모 슈퍼컴퓨터와 맞먹는다.

알파고에 슈퍼컴퓨터급 인프라가 투입된 이유는 학습시간을 단축하기 위해서다. 알파고는 입력된 기보 16만건을 토대로 지난 5개월간 매일 3만번의 실전 경험을 쌓았다.

딥마인드가 네이처에 게재한 논문에 따르면 초기 알파고는 48개 CPU를 탑재한 서버로 구현됐다. 방대한 양의 기보를 학습하고 다른 인공지능 바둑 프로그램과 500번 이상 겨뤘다. 인간과 대결을 준비하면서 컴퓨팅 파워를 더 늘렸다. 초기 모델보다 40배가 넘는 1900개 CPU를 탑재한 고성능 시스템을 장착해 테스트하기도 했다.

지난해 10월 판후이 2단과의 대결에 모습을 드러낸 알파고는 1202개 노드로 운영됐다. 데미스 하사비스 딥마인드 CEO는 무리한 컴퓨팅 파워 확장보다는 알고리즘 개선에 초점을 맞췄다고 설명했다. 이를 통해 초당 10만개에 달하는 수를 고려한다. 최고 바둑기사보다 최대 1000배 빠르다.

손영성 ETRI 초연결연구소 책임연구원은 “주요 글로벌 IT업체뿐만 아니라 MIT, 케임브리지대 등 학계에서도 인공지능 바둑 프로그램을 개발하지만 그 수준은 아마추어 1~2급 수준”이라며 “그들과 알파고의 가장 큰 차이는 구글이 보유한 엄청난 컴퓨팅 인프라를 활용해 일반 컴퓨터로 수년이 걸리는 학습시간을 단 수일로 단축시킨 것”이라고 말했다.

단순히 CPU 높였다고 기계가 인간을 넘어섰던 것은 아니다. GPU와 같은 보조 프로세서는 물론이고 클라우드 컴퓨팅이 힘을 보탠다.

GPU를 활용한 이미지 랜더링과 전송
GPU를 활용한 이미지 랜더링과 전송

그래픽 정보를 랜더링하는 데 쓰이는 GPU는 워크스테이션 혹은 슈퍼컴퓨터 등 고성능컴퓨팅(HPC) 영역에서 각광받는다. 순차적으로 코딩을 처리하는 CPU와 달리 코딩을 분산 처리하는 GPU는 고속 연산처리에 특화됐다.

알파고에 탑재된 GPU는 170개가 넘는다. 개발 총책임자인 데이비드 실버 교수는 ‘알파고의 브레인은 100개가 넘는 GPU’라고 말하기도 했다. 일반적으로 CPU와 GPU를 함께 구성한 시스템은 CPU만 탑재한 것보다 30배 이상 연산속도가 빠르다. 작업 중 발열에 의한 전력 소모도 줄인다.

차정훈 엔비디아코리아 상무는 “세계 최대 수준 컴퓨팅 인프라를 보유한 구글은 GPU 분야에서 자체 플랫폼을 구축해 다양한 기술 개발을 주도한다”며 “알파고 역시 GPU를 활용해 적은 리소스로 많은 연산을 처리, SW 알고리즘을 완벽히 지원한다”고 말했다.

클라우드 컴퓨팅도 숨은 조력자다. 이번 대국을 위해 1000대가 넘는 서버를 한국에 들고 올 수는 없다. 모든 인프라는 미국 서부에 위치한 구글 데이터센터에 있다. 알파고는 ‘구글 클라우드 플랫폼’을 통해 컴퓨팅 자원을 이용한다. 물리적 제약이 거의 없는 클라우드 특성상 컴퓨팅 자원을 무한대로 늘릴 수 있다. 어느 나라에 가더라도 HW를 수반할 필요 없다.

IT업계 관계자는 “기존 슈퍼컴퓨터 중심 인공지능이 클라우드로 옮겨가는 과정을 보여주는 의미 있는 사례”라고 말했다.

정용철 의료/SW 전문기자 jungyc@etnews.com