[기고]사용자 중심 빅데이터 활용 체계 구축 전략

이일호 비투엔 이사
이일호 비투엔 이사

많은 기업이 점점 다양해지는 데이터를 효과적으로 활용하기 위해 빅데이터 분석 플랫폼을 구축하고 있다. 기업이 보유하고 있는 데이터를 데이터레이크라는 풀 안에 담아 두려는 인프라 확보를 시작으로 다양한 형태의 데이터를 수집하고 고도화한 분석을 통한 양질의 인사이트를 의사 결정자에게 제공하기 위한 노력을 다하고 있다.

그러나 여전히 수많은 기업·기관은 구축해 놓은 데이터 플랫폼에 대해 회의적 시각을 보내거나 빅데이터 분석 플랫폼 운용에 많은 어려움을 마주하고 있는 것이 현실이다. 예를 들면 이미 운용되고 있는 정보계·분석계 시스템과의 차별성, 빅데이터 자원 및 데이터 플랫폼에 대한 활용 증대 방안 등과 같은 여러 현실적 고민을 안고 있다. 이러한 고려 사항은 데이터 분석 플랫폼에 어떻게 적용할 수 있을지 고민이 필요하다.

보유한 정보계 시스템과의 차별성을 놓고 빅데이터 플랫폼 관계자들은 누구나 공감할 것이다. 정보계 분석 소스데이터의 경우 대부분이 레거시시스템 정형 데이터에 국한되기 마련이다. 반면에 빅데이터 플랫폼의 경우 비정형·반정형 형태에 대한 수용이 가능하다. 실시간 성격의 비정형 데이터에 대해서도 카프카, 플링크, 스파크 스트리밍 등을 통해 실시간 데이터 수집 파이프라인 구성이 가능하다는 특성이 있다.

특히 대부분 기업에서 업무 참조를 위해 검색·참조하는 비정형·반정형 형태의 다양한 문서 와 이미지 데이터를 활용한 통합문서 검색 서비스도 가능해진다. 텍스트 변환 및 광학식문자판독(OCR) 기술을 통해 텍스트 데이터 추출, 전처리, 수집, 저장을 함으로써 데이터 활용도를 확대할 수 있는 것이다.

정형화 데이터를 넘어서는 데이터 수집 파이프라인을 통해 좀 더 다양한 형태의 데이터를 인공지능(AI) 분석에 활용함으로써 기존 정보계 시스템과의 차별성을 보여 줄 수 있다.

이렇게 구축된 데이터 분석 플랫폼에서는 사용자·분석가 모두에게 활용성 강화와 사용 편의성 제공을 위한 방안 역시 필요하다. 이를 위해 사용자와 분석가 모두에게 가장 중요한 것은 수집된 데이터의 분류체계와 출처, 오너십·스튜어드십, 메타 데이터, 정형·비정형 데이터에 대한 검색, 분석 플랫폼 자원 관리 등 데이터를 잘 찾고 활용하기 위해 제공해야 할 기반 서비스다.

데이터 분석가들은 다양한 형태의 데이터 분류체계, 프로파일 정보와 출처, 데이터 발생 규칙 등 분석의 소스가 되는 데이터를 이해하기가 쉽지 않다. 또 비즈니스 용어와 여러 지표 정의 등을 찾아 이와 관련한 정보기술(IT) 메타를 확인하고, 데이터에 대한 오너십 담당자와 협업이 가능하도록 데이터 오너십 정보 제공도 필요하다. 이러한 데이터 분석을 위한 기반 환경 제공이 원활히 이뤄져야 비로소 분석가·사용자의 셀프 서비스 분석이 실현될 것이다.

마지막으로 데이터 분석가와 사용자 중심의 빅데이터 활용 체계를 마련하기 위해서는 분석 인프라를 갖추는 것뿐만 아니라 데이터의 활용성을 높일 수 있는 거버넌스 및 체계를 확보하기 위한 활발한 노력이 필요하다.

기존 정보계와 분석계 시스템이 포용하지 못한 다양한 데이터에 대해 검색·분석이 가능한 환경을 제공해야 한다. 또한 분석가와 사용자가 데이터에 좀 더 쉽게 접근할 수 있도록 기반을 제공하는 기업만이 급변하는 흐름 속에서 살아남을 수 있을 것이다.

이일호 비투엔 이사 ihlee@b2en.com