스스로 바둑 깨우친 '알파고 제로'...AI '새 이정표'

독특한 정석까지 스스로 터득…구글 딥마인드, 네이처에 논문 발표

이미지뱅크 자료
이미지뱅크 자료

구글 딥마인드가 바둑 인공지능(AI) 알파고 최신 버전 '알파고 제로'를 공개했다. 알파고 제로는 순수 독학만으로 기존 버전 알파고마저 압도하는 실력을 갖췄다. 딥마인드는 인간이 쌓아온 정석을 외우거나 기보 학습으로 바둑을 배우지 않고도 인간 한계를 뛰어넘어 AI 연구에 중요한 이정표가 될 것이라고 강조했다.

데미스 허사비스 딥마인드 최고경영자(CEO)와 소속 연구원 17명은 이런 내용을 담은 '인간 지식 없이 바둑을 마스터하기(Mastering the game of Go without human knowledge)'라는 논문을 과학 학술지 네이처에 19일 발표했다.

알파고 제로는 바둑 규칙 이외에 아무 사전 지식이 없는 상태로 인공신경망 기술을 활용, 스스로 대국하며 바둑 이치를 터득한다. 승률을 높이는 수에 대한 데이터를 스스로 생성하며 수준을 높인다. 생물 뇌에서 실제 작동하는 '강화학습'과 유사하다.

알파고 로고<전자신문DB>
알파고 로고<전자신문DB>

이런 과정으로 단기간에 기존 알파고마저 뛰어넘었다. 독학 36시간 만에 지난해 3월 이세돌 9단을 압도한 버전(알파고 리) 실력을 뛰어넘었다. 알파고 제로가 72시간 독학한 뒤 이세돌 대국 당시와 같은 대국 조건(제한시간 2시간씩)으로 알파고 리와 대결한 결과 100전 100승을 거뒀다. 알파고 제로는 한 수에 0.4초가 걸리는 초속기 바둑으로 490만판을 혼자 두면서 연구했다.

40일 동안 2900만판을 혼자 둔 뒤 올해 5월 커제 9단을 꺾은 기존 최강 버전 '알파고 마스터' 실력까지 압도했다. 알파고 제로는 알파고 마스터와 대결, 100전 89승 11패를 거뒀다.

알파고 제로가 기존 버전마저 넘어선 이유는 인간의 선입견을 철저히 배제했기 때문이다. 기존 알파고 버전은 인간 기보와 정석으로 공부했다. 독학 과정에서 스스로 기존 정석을 깨닫고 독특한 정석까지 개발했다.

데이비드 실버 딥마인드 과학자는 “알파고 제로가 기존 버전보다 강한 이유는 인간 지식 한계에 속박되지 않기 때문”이라고 설명했다.

허사비스는 “알파고 제로는 인간이 만든 데이터를 입력하지 않아도 되고 컴퓨팅 파워도 덜 든다”면서 “2년 만에 알파고의 발전상을 보면 놀랍다”라고 밝혔다.

오대석기자 ods@etnews.com