[AI사피엔스 시대]"AI 학습 효율 높여라"…비지도학습·연합학습 주목

게티이미지뱅크
게티이미지뱅크

차세대 인공지능(AI) 기술은 어떻게 진화할까. 차세대 AI를 향한 연구는 현재진행형이다. 차세대 기술 중 하나로 AI 학습 효율을 높이는 기술이 거론된다. 적은 데이터를 학습하더라도 더 많은 데이터를 학습한 AI와 비슷한 수준의 학습 성능을 보여주는 것이 관건이다.

AI 학습 효율은 우리나라 정보기술(IT) 업계에도 중요한 이슈다. 세계 각국 IT기업이 AI 패권을 다투고 있다. 딥러닝은 오랜 화두다. 입력되는 데이터가 많아야 AI 성능이 고도화된다. 데이터가 많을수록 절대적으로 유리할 수밖에 없다.

국내 기업에는 반가운 현실이 아니다. 글로벌 시장을 상대하는 플랫폼, 자국 인구가 많은 국가의 플랫폼은 더 많은 데이터를 끌어모을 수 있다. 국내 플랫폼은 규모의 경쟁에서 떨어지는 게 현실이다. 기존 딥러닝 중심 경쟁 판도를 바꿀 카드가 필요한 이유다.

전문가가 꼽는 딥러닝의 대안은 '비지도학습(Unsupervised Learning)'과 '연합학습(Federated Learning)'이다.

이현규 과학기술정보통신부 인공지능PM은 “딥러닝 기반으로 누가 더 많이 데이터를 학습하는지를 겨룬다면 우리나라는 세계 1등이 될 수 없다. 물리적인 데이터 양 자체가 적기 때문”이라면서 “데이터를 적게 쓰고도 비슷한 학습 효과를 찾아야 한다. 비지도학습, 연합학습 기술을 딥러닝 이후 AI 학습 효율을 높일 대안으로 꼽는다”고 설명했다.

두 기술 모두 학계에서 차세대 AI 기술로 주목받고 있다. 미국의 포브스 역시 차세대 AI 기술로 지목했다. 딥러닝 한계를 대체할 수 있다는 전망도 내놨다.

먼저 비지도학습은 사람의 개입 없이 AI가 데이터를 스스로 학습하는 개념이다. 초기 비지도학습은 정제하지 않은 데이터 군집의 성격을 파악하는 데서 출발했다. '오토 레이블링'이 대표적인 비지도학습 사례다.

딥러닝으로 대표되는 현재 AI 학습과정은 사실상 전적으로 사람이 개입해 이뤄진다. 이를 '지도학습'이라고 부른다. 사람은 AI가 배워야 할 데이터를 라벨링하고 선별하는 과정을 거쳤다. 한계도 분명했다. 지도학습을 통해 사람이 설정해야 할 데이터가 방대했기 때문이다. AI 학습 속도와 사람의 데이터 선별 속도에 괴리가 발생했다. AI 발전 속도를 지도학습이 따라가지 못하는 것이다. 지도학습 한계로 지적된 AI와 지도학습의 병목현상을 해소할 대안이 요구됐던 이유다.

현재 연구가 이뤄지는 비지도학습 기술은 일부 데이터를 토대로 나머지 데이터를 추론하고 예상하는 방식으로까지 진화했다. AI의 자연어 학습 과정에서 비언어 의사소통을 학습하는 데 비지도학습 기술이 활용된다.

또 다른 학습기술인 연합학습은 클라우드 서버에 모든 데이터를 수집한 뒤 학습이 이뤄지는 기존 딥러닝 틀을 깼다. 수많은 단말기가 자체 수집한 데이터를 학습하고, 그 결과물을 클라우드 서버와 공유, 연동하는 방식이다. 학습 과정이 중앙집권형에서 분산형으로 바뀌는 셈이다. 2017년 구글에서 연합학습이란 개념을 공식화했다.

실제로 연합학습 기술을 서비스에 적극 도입한 기업도 구글이다. 안드로이드 스마트폰의 단어 자동완성기능도 연합학습의 결과물이다.

연합학습 발상은 현실 문제를 해결하는 과정에서 나왔다. 세계 데이터를 클라우드 서버로 수집하는 과정에서 각국의 서로 다른 보안 규제, 개인정보보호와 같은 민감 이슈와 부딪혔다. 마구잡이로 데이터를 수집했을 때 개인정보를 침해할 소지가 충분했다. 보안, 개인정보보호는 AI 연구가 넘어야 할 장애물로 지목됐다.

연합학습은 이 같은 한계를 수많은 단말기로 극복한다. 중앙 클라우드 서버에서 학습하는 것이 아니라 단말기에서 자체적으로 훈련이 이뤄진다. 단말기 대표 사례로 스마트폰이 있다. 클라우드 서버는 각 단말기에서 훈련모델과 훈련프로그램만 제공한다. 단말기는 사용자 유휴시간대에 훈련프로그램을 통해 이용자의 로컬데이터를 학습한다. 개인마다 사용행태가 다르기 때문에 서로 다른 데이터 학습이 가능하다.

단말기에서 학습된 모델은 클라우드 서버로 전송된다. 데이터를 통째로 넘기는 것이 아니기 때문에 규제, 대용량 데이터 전송 문제에서 자유롭다. 클라우드 서버의 역할은 각 단말기의 결과물을 취합해 하나의 모델로 통합하는 것이다.

연합학습은 의료 산업에서 적극 도입되는 추세다. 환자의 민감 정보 침해 이슈를 피하면서 AI 성능을 고도화할 수 있어서다. 자율주행차도 좋은 사례가 될 수 있다.

국내에서도 비지도학습과 연합학습을 고도화하려는 학계와 기업의 움직임이 활발하다. 세계 AI 경쟁에서 밀리지 않기 위해선 대대적인 연구와 지원이 필수다.

이 PM은 “현재 비지도학습과 연합학습 기술은 개별적으로 구현이 가능한 수준에 이르렀다. 그러나 산업체에서 활용할 수 있는 수준의 정교하고 고급화한 단계는 아니다”라면서 “이론 중심의 연구에서 탈피해 현장과 기술이 접점을 찾을 수 있도록 전폭적인 지원이 필요하다”고 피력했다.

【표】비지도학습·연합학습 개념(자료:포브스, 업계)

[AI사피엔스 시대]"AI 학습 효율 높여라"…비지도학습·연합학습 주목


이영호기자 youngtiger@etnews.com