애자일소다, 강화학습 보상에 대한 국내 특허 획득

애자일소다, 강화학습 보상에 대한 국내 특허 획득

애자일소다(대표 최대우)는 기업의 비즈니스에 강화학습을 적용하는 데 활용하는 '데이터 기반 강화 학습 장치 및 방법' 관련 국내 특허를 취득했다.

강화학습은 환경과 상호작용하며 목표를 달성하는 에이전트를 다루는 머신러닝 한 분야다. 자율주행, 로봇제어, 게임 분야에 많이 사용되는 기술이다. 강화학습 특징은 행동 주체인 에이전트가 어떤 행동을 해야 더 많은 보상을 받을지 알아내는 것을 목적으로 한다. 따라서 보상을 어떻게 책정하느냐에 따라 학습 결과에 크게 영향을 미치므로 이 부분이 강화학습 프로젝트 핵심이라고 볼 수 있다.

게임는 점수라는 명확한 보상이 제시돼 있지만, 비즈니스 환경은 사업목적에 맞는 보상체계를 정하기가 용이하지 않다. 매번 사업목적에 부합하는 보상 설정을 반복하면서 실험해야만 하는 어려움이 있다. 분석가는 최적 모델을 개발하기 위해 임의로 보상 점수를 부여하며 학습 결과를 보며 재조정하는 수 많은 시행착오 과정이 필요했다.

애자일소다는 다양한 기업 프로젝트를 경험하며 이런 어려움을 개선하고자 연구한 끝에 '기업의 목표와 성과를 일치(Align)시킬 수 있는 보상 함수 알고리즘'을 개발했다. 실제 프로젝트에서 가능성을 입증하며 특허를 획득했다. 분석가는 매번 새로운 목표에 맞는 보상 설정에 필요한 시간과 공수를 획기적으로 단축시킬 수 있게 될 전망이다. 반복적인 학습-재조정 과정에 필요한 대규모 컴퓨팅 리소스도 절약할 수 있어 비용을 절감할 수 있을 것으로 기대된다.

최대우 애자일소다 대표는 “이번 특허 기술은 머지않아 출시 예정인 강화학습 솔루션(베이킹소다)에 적용될 예정”이라면서 “기업 의사결정 최적화에 강화학습 기술 가능성을 내다보던 기업 선도적 분석가에게 강화학습 도입을 적극적으로 검토하는 계기가 될 것“이라고 말했다.

김지선기자 river@etnews.com