[CIO BIZ+]핫이슈-분석엔진 `R` 분석시장 판도 바꾼다

관련 통계자료 다운로드 R패키지 증가 추이

분석 시장에서 오픈소스 기반 분석엔진 `R`이 화두로 떠오르고 있다. 기존 분석 시장의 최강자 SAS와 경쟁하며 향후 분석시장 판도를 바꿀 것이라는 전망도 나온다. 이미 3년 전부터 구글과 페이스북 등 글로벌 인터넷 기업들이 분석 엔진으로 R를 사용하고 있다. 검증된 성능과 저렴한 가격이 R의 최대 강점으로 꼽힌다.

국내에서도 R를 활용하는 업체들이 늘고 있다. R를 기반으로 기존 솔루션에 분석과 통계 기능을 추가해 경쟁력을 강화하는 게 목적이다. R의 상용 버전 `레볼루션 R 엔터프라이즈` 개발사인 RA도 국내 공략을 강화하고 있다. 한국거래소가 베가스를 통해 레볼루션 R를 분석 엔진으로 도입하기로 했다. 분석 시장에서 관심이 고조되고 있는 R에 대해서 알아보자.

◇제작 및 배포에 제한 없어=R는 통계분석을 위한 프로그래밍 언어이자 개발 환경이다. 1976년 벨연구소의 존 챔버스(John Chambers), 릭 베커(Rick Becker), 앨런 윌크스(Allan Wilks)가 개발한 S언어에 뿌리를 두고 있다. S언어는 `S-플러스`라는 이름의 상업 제품으로 마이크로소프트, 인사이트풀을 거쳐 현재 팁코의 분석 소프트웨어 제품으로 자리잡았다.

지금 사용되는 R는 1993년 뉴질랜드 오클랜드대학의 로스 이하카(Ross Ihaka), 로버트 젠틀맨(Robert Gentleman) 두 명의 교수가 개발했다. 개발자 이름 맨 앞 알파벳을 따 `R`로 명명했다. R는 S언어와 유사하기 때문에 S언어의 상업용 버전을 S-플러스, 비상업용 버전을 R로 분류하기도 한다.

R는 오픈소스이기 때문에 배포에 제한이 없는 게 특징이다. 즉 R를 이용해 자산화를 한다든지 새로운 솔루션을 제작해 제공하는 등의 행위에 제한을 받지 않는다. CRAN(www.r-project.org) 사이트에서 자유롭게 내려 받아 설치할 수 있다.

현재 39개국에 87개 미러 사이트가 운영 중이다. 미러사이트는 한 사이트에 많은 트래픽이 몰리는 것을 방지하기 위해 똑같은 내용을 복사해 여러 곳에 분산시킨 사이트를 일컫는다. 국내에도 넥스알이 R 미러사이트(cran.nexr.com)를 운영 중이다.

R는 기본적으로 패키지들의 모음이다. 현재 이런 패키지가 3759개 등록돼 있으며 지금 이 시간에도 개발이 진행되고 있다. 이 패키지들은 새로운 통계분석 알고리즘이나 신규 IT의 응용에 관한 것이다.

R는 소프트웨어 업체가 버전을 업그레이드하지 않는다는 점에서 다른 통계분석 소프트웨어와 차별화된다. 오히려 기존 소프트웨어보다 새로운 기능 추가가 더 빠르다.

◇가벼우면서도 다양한 기능 갖춰=R는 기본적으로 데이터 처리, 자료분석, 통계 모델링, 그래프 등의 결과물 생성 등 다양한 목적으로 사용된다. 프로그래밍 언어이기 때문에 일정 부분 프로그래밍 능력을 갖춰야 한다.

하지만 다른 개발언어와 달리 대부분 인식성 높은 이름의 함수로 이뤄져 있어 프로그래밍 기초가 약한 사람도 1~2일 정도 기본 교육을 받으면 사용이 가능하다. 주로 통계학 전공자들이 분석을 하는 데 사용하지만 비 전공자들도 쉽게 이용할 수 있다.

R는 다양한 예제를 데이터와 함께 제공한다. 도움 기능도 그때그때 사용할 수 있어 신규 사용자도 쉽게 사용법을 익힐 수 있다. 스크립트 방식으로 이용하지만 다양한 부가 패키지와 솔루션이 있다.

메뉴 방식으로 분석을 수행할 수 있는 R커맨더, 데이마이닝을 보다 편하게 할 수 있는 래틀(Rattle), 분석에 있어서 사용자 편의성을 높인 레드(Red)-R, R 스크립트 작성을 보다 편리하게 할 수 있는 R스튜디오, 엑셀과 쉽게 연동해 분석할 수 있는 R엑셀 등 다양한 부가 패키지를 제공한다.

R와 SAS, SPSS 등 다른 통계분석 소프트웨어의 가장 큰 차이점은 R는 오브젝트 기반 객체지향적 언어라는 것이다. SAS `프로시저`가 아닌 함수 중심으로 분석가가 분석 로직을 `R스크립트`를 이용해 자유자재로 구현할 수 있다. 벡터, 데이터프레임, 매트릭스, 어레이(array), 리스트(list) 등 다양한 데이터 형식을 처리할 수 있다.

자바나 파이썬(Python), 닷넷, 비주얼 스튜디오 등 다른 개발 플랫폼과 인터페이스를 위해 애플리케이션프로그래밍인터페이스(API)를 제공해 쉽게 연동이 가능하다. 이를 통해 새로운 솔루션과 플랫폼을 자유자재로 구현할 수 있다.

김준기 베가스 본부장은 “R는 설치파일이 50메가바이트도 되지 않을 정도로 가벼우면서도 SAS나 SPSS가 제공하는 통계분석 기능을 모두 제공한다”며 “최신 분석 알고리즘 적용이 빠르기 때문에 R를 LCBEx 플랫폼으로 정의한다”고 말했다. LCBEx는 `Low Cost But Excellent`의 약자다.

◇하둡과 연계해 분석시장 변화시킬 것=구글과 페이스북 등의 활용 사례 외에 오라클, SAP 하나, 테라데이타, 네티자(IBM) 등에서 R 기반 솔루션을 시장에 내놓고 있다. 국내에서는 지난해 베가스가 R의 기업용 버전인 RA의 레볼루션 R를 소개하면서 관심이 고조되고 있다. 자금세탁방지나 캠페인관리솔루션 등 몇몇 솔루션 업체들은 기존 솔루션에 R 기반 분석툴을 탑재해 제안하고 있다.

넥스알은 대용량 파일 분산처리 프로그램 `하둡`과 R를 적용한 분석시스템을 모회사인 KT에 적용했으며, 거래소는 레볼루션 R 도입을 결정하고 프로젝트를 진행 중이다.

최대우 한국외국어대 통계학과 교수는 “주로 통신사 등 빅데이터 분석이 필요한 곳에서 하둡과 R를 연계한 분석시스템을 만들려는 시도가 많다”며 “SAS 일변도로 흐르던 국내 분석엔진 시장이 R의 등장으로 크게 요동칠 것”이라고 전망했다.

R는 `R 디벨롭먼트 코어 팀`이라는 조직과 많은 기여자들이 배포와 수정을 담당하고 있다. 각 국가별로 수백 개 R 사용자 그룹이 활동 중이다. 국내에는 `한국 R 사용자 모임(KRUG)`을 중심으로 활동이 진행되고 있다.

KRUG는 R를 통한 통계적 방법론과 기술을 보다 빠르게 습득하도록 지원하고 이를 공유해 통계 연구개발과 활용에 기여하는 것을 목적으로 한다. 한국어 사용자들을 위한 R의 한글화도 주요 활동 내용 중 하나다.

지난해엔 `유즈R 코리아 콘퍼런스`를 개최, R에 대한 전반적 기술 이슈와 연구 동향, 활용사례 등을 심도 있게 공유하는 시간을 가졌다. 뿐만 아니라 매달 무료로 밋업(Meetup, www.r-project.kr/meetup) 오프라인 프로그램을 통해 지식기부를 실현하고 네트워크 형성을 도모하고 있다. R에 관심이 있는 사람이라면 누구나 참여 가능하다.

안호천기자 hcan@etnews.com