[해설]커제 꺾은 알파고, 1년 간 더 강해진 비결

[해설]커제 꺾은 알파고, 1년 간 더 강해진 비결

알파고는 이번 대국에서 더욱 강력한 실력을 과시했다. 지난해 이세돌 9단과 대국 과정에서 다량의 인간 고수 기보를 학습해 실력을 높였다면 이번에는 '셀프 대국'을 통해 기력을 한층 끌어 올렸다.

알파고는 바둑기사 세계 랭킹 1위인 커제 9단이 “수법이 신선의 경지에 올랐다. 인간계 바둑보다 수천년은 앞선 것 같다”며 혀를 내두를 정도로 막강한 실력을 보유했다. 지난해 3월 이세돌 9단과 대국에서 보였던 작은 틈마저 보완했다는 평가다.

개발사 딥마인드는 지난 1년 동안 알파고 실력을 향상시키기 위해 '또 다른 알파고'를 만들어 대국을 붙였다. 데미스 허사비스 딥마인드 최고경영자(CEO)는 1월 독일 강연에서 “인간의 기보를 참조하지 않고 스스로 학습한 알파고의 두 번째 버전(알파고 2.0)을 만들었다”고 밝혔다. 알파고 대 알파고 대국 과정에서 스스로 학습하는 '강화학습'만 실시했다는 의미다.

인간의 수를 참조하지 않은 학습으로 기존 바둑 지식을 뛰어넘는 창조적 수를 구사하는 것이 가능해졌다. 이세돌 9단과 대국 준비 과정에서는 16만여건 기보를 배우는 '지도학습' 과정을 거쳤다. 이를 기반으로 승률이 높은 수를 찾는 강화학습을 병행했다.

일각에서는 기보 데이터 학습을 약점으로 거론했다. 16만여건 기보에는 아마추어 기사 대국도 포함됐다. 학습한 데이터에 완벽치 않은 수가 섞여 있었다. 알파고는 이세돌 9단과 4국에서 이 9단의 78수에 허둥대는 모습을 보이며 패배했다. 허사비스 CEO도 “79수 때 70%였던 승률이 87수 때 50% 이하로 떨어졌다. 87수에서야 실수를 깨달았다”고 언급했다.

딥마인드는 강화된 알파고 2.0을 선보이기 전 비공식 시범 테스트로 실력 검증 과정도 거쳤다. 지난해 12월부터 올해 1월까지 '마스터'라는 ID로 인터넷 바둑 대결을 벌였다. 한·중·일 최정상 프로기사 상대로 60전 전승을 거뒀다. 당시 커제 9단에게도 3연승을 기록했다.

왼쪽부터 데미스 허사비스 딥마인드 CEO, 커제 9단, 에릭 슈미츠 구글 알파벳 회장.
왼쪽부터 데미스 허사비스 딥마인드 CEO, 커제 9단, 에릭 슈미츠 구글 알파벳 회장.

알파고의 막대한 연산력을 뒷받침하는 하드웨어(HW)도 개선했다. 새로운 알파고는 구글이 자체 개발한 인공지능(AI) 전용 주문형 반도체 '텐서처리장치(TPU:Tensor Processing Unit)'를 사용한다. 지난해 대국에서는 중앙처리장치(CPU) 1202개, 그래픽처리장치(GPU) 176개를 탑재한 슈퍼컴퓨터를 통해 작동됐다.

이를 바탕으로 더 적은 수의 컴퓨팅 자원을 사용하고 에너지 사용량도 줄였다. TPU 프로젝트 책임자 놈 주피는 “TPU는 기존 프로세서보다 15~30배 빠르며 효율성 면에서 30~80배 더 뛰어나다”고 자신했다. 허사비스는 “알파고를 비롯한 기존 AI 시스템은 엄청난 에너지를 사용하는 문제가 있다”면서 “우리는 이런 문제를 해결해 나가고 있다”고 말했다.

오대석기자 ods@etnews.com