
데이터 품질관리 확산을 위한 전문가 좌담회
◇참석자
방은주 전자신문 차장(사회)
김인현 투이컨설팅사장
이용효 한국교육학술정보원 교육행정정보센터소장
이정우 연세대학교 교수/데이터품질관리포럼 회장
이철환 한국개인신용주식회사 상무
주정용 우리금융정보시스템 상무
박재현 한국데이터베이스진흥센터 실장
기업과 공공기관의 데이터 품질관리 현황을 짚어보고 데이터 품질관리 확산방안을 모색하기 위해 국내 DB관련 전문가들이 한자리에 모였다. 전자신문은 한국데이터베이스진흥센터, 데이터품질관리포럼과 공동으로 지난 22일 서울 소공동 롯데호텔에서 ‘데이터 품질관리 확산을 위한 전문가 좌담회’를 개최했다. 참석자들은 데이터 품질관리의 중요성을 확인하는 한편 데이터 품질관리 확산을 위한 산학연관의 역할과 과제를 제시했다.
◇사회(방은주 전자신문사 차장)=데이터품질관리가 업계의 새로운 화두로 등장했다. 데이터 품질관리가 왜 필요한지 먼저 얘기해 달라.
◇이정우(연세대학교 교수/데이터품질관리포럼 회장)=DB의 강점은 통합이다. 최근 인터넷이 활성화되면서 DB통합은 개념적 통합으로 전환되기 시작했다. 물리적으로 통합하는 데는 한계가 있기 때문이다. 미국에서 데이터 품질관리에 대한 조사를 했는데 데이터 품질저하로 인한 손실이 매년 2000억달러에 이른다. DB품질관리에 대한 중요성을 일깨워주는 대목이다.
◇이철환(한국개인신용주식회사 상무)=데이터정보 중 주소정보의 불확실성으로 발생하는 비용이 그 정도 된다. 국내에도 90년대 말 전사자원관리(ERP), 2000년 이후에는 고객관계관리(CRM)에 대한 대규모 투자가 있었는데, 문제는 시스템보다는 데이터 자체에 오류가 있다는 것이다. 데이터를 정제하는 것이 중요하다. 데이터 정제가 안 되는 이유는 데이터에 접근하는 권한 자체가 제한적이기 때문이다. 접근이 불가능하면 데이터 개선 시도 자체가 힘들다.
◇이용효(한국교육학술정보원 교육행정정보센터소장)=데이터 품질이 사회에 미치는 파급효과는 크다. 데이터 품질관리의 일환으로 공공사업간 연계도 피할 수 없는 과제다. 때문에 정부는 범정부통합환경구축을 중점과제로 설정, 2008년까지 모든 공공기관의 DB를 ITA표준에 맞춘다는 계획이다.
내년 정보화 비용은 2조1450억원이다. 데이터 품질저하로 인해 발생하는 손실비용은 전체 예산의 10∼15% 정도다. 국가정보화의 완성도를 높이기 위해 체계적인 품질관리가 필요하다.
◇김인현(투이컨설팅사장)=기업들이 지금까지 신경써온 분야는 데이터보다 시스템 개발 분야다. 마침 지난해부터 우리은행을 선두로 한 금융권에서 이에 대한 투자를 시작했다. 데이터에 대한 과학적 접근은 결정권자의 결정에도 중요한 영향을 미친다. 프로그램은 사거나 빌려오거나 남에게 시킬 수도 있지만 데이터는 그럴 수가 없다. 스스로 관리해야 한다.
◇주정용(우리금융정보시스템 상무)=가장 중요한 것은 정책이다. 정책을 통해 데이터를 어떻게 생성 활용 폐지할 것인가를 결정해야 한다. 최초 프로젝트 착수 시점에서 데이터를 어떻게 관리할 것인지에 대한 정책을 수립하고 이를 관리하는 것이 중요하다. 여기에는 반드시 도구가 있어야 한다. 정책이 수립되면 정책에 따라 일을 하는지 관리해야 한다.
◇사회=우리 기업이 처한 현실이 어느 정도인지, 미국과 비교해 얘기해 달라.
◇김인현=예전에는 프로그램을 돌리기 위해 DB가 필요했지만 지금은 DB를 어떻게 써먹을 것인가가 관심이다. 이같은 DB의 출발은 비즈니스다. 바로 비즈니스 관점에서 접근해야 해결책이 나온다. 국내의 현실은 프로젝트를 위한 데이터로만 존재한다고 보면 된다.
◇이정우=미국 학회 동향을 보면 10년 전부터 연구를 했음에도 불구하고 쉽게 수용되지 않는 분야가 바로 데이터품질이다. 데이터 품질은 기술적 문제가 아니다. 기술문제는 이미 풀 수 있는 솔루션 가지고 있다. 특히 국내는 인터넷으로 미국보다 이 분야를 앞설 수 있는 가능성이 있다. 특히 솔루션 분야는 잘 개발하면 수출도 가능하다.
◇박재현(한국데이터베이스진흥센터 실장)=작년에 데이터 품질에 대한 국산 툴이 개발됐다. 절대 외산에 뒤지지 않는다. 그동안의 경험이나 역량을 농축해 개발했고 발 빠르게 시장에 접목했다. 그러나 이를 적용하는 곳은 중소기업은 전무하고 금융이나 통신 분야에 국한됐다. 국내 시장 자체는 아직 크지 않다. 이에 대한 인식개선이 시급하다.
◇주정용=창구에서 입력할 때 형식에 맞춰 입력할 수 있는 시스템을 구축한 적이 있다.
채널이 다양하고 통제할 수 없는 부분도 있는데 주위 기관 데이터에 따라 차이가 나는 경우도 있다. 국가 차원에서 품질통제가 필요하다. 바젤Ⅱ가 등장하면서 필요한 데이터의 폭과 질이 높아졌다. 이에 대한 관심과 투자가 필요하다.
◇이철환=데이터품질이 음식의 품질과 달리 다변적이다. 주소데이터라면 사는 주소, 주민등록 주소, 실주거지 등 각각의 의미가 있다. 또 DM 발송할 때와 행정 처리할 때의 주소가 각기 다르다.
미국은 국방부 내부에 데이터를 정제하는 현실적 방법을 가지고 있다. 데이터 오류를 한번에 잡지 않는다. 계속 변한다는 인식을 가지고 장기적으로 접근한다.
◇사회=마인드와 환경을 바꾸면 관련기술을 수출할 수 있을 것으로 보인다. 이를 위해 시급한 해결과제는 무엇인가.
◇주정용=그러나 국내 데이터 품질은 초기단계다. 이를 심화시키기 위한 전문가를 찾았지만 국내에 없다. 여전히 경험에 의존하고 있다. 품질관리 전문가 양성이 시급하다.
◇이철환=데이터의 중요성을 인식해야 데이터를 다룬다. 특히 보안 분야를 알아야 한다. 이를 모르고 데이터를 제대로 다룰 수는 없다. 이같은 일은 바로 CIO가 해야 하는 일이다.
◇이정우=데이터를 어떻게 쓰고 데이터에서 어떻게 처리한다는 것을 아는 사람이 와서 설득해야 한다.
◇이용효=데이터 품질관련 구체적 정책이 부족하다. 아키텍처 프로세스 과정 등에 대한 표준을 정립해서 국가 전체에 확산하는 작업이 필요하다. 기술적 규범을 마련해 널리 보급해야 한다. 정부 시범사업에도 데이터 품질관리를 넣어야 한다.
◇박재현=지난 1월 대법원에서 호적 등본 10명 중 1명이 오류가 있다는 뉴스가 있었다. 현재 데이터 입력 시 아날로그 데이터의 디지털화만 진행하고 있다. 값이 정확한지 모르고 있다. 나중에 열어보니 국민 열개중 하나는 잘못됐다는 얘기다. 이를 정제하기 위해서는 상당한 노력이 필요하다.
◇사회=그렇다면 보이지 않는 데이터의 품질관리는 과연 어떻게 해야 하는지 구체적으로 얘기해보자.
◇김인현=데이터는 네가지 특징이 있다. 우선 스스로 고백하지 않기 때문에 틀린 데이터는 항상 숨어 있다. 또 내버려두면 무한정 늘어나며 어제는 맞지만 6개월 뒤에는 틀릴 수 있다. 마지막으로 쓸수록 좋아진다. 데이터 관리는 한번 했다고 해결되지 않는다. 지속적으로 데이터 관리역량을 높여야 한다.
◇주정용=금융에서는 데이터 품질에 신경 많이 쓰는데 이같은 품질관리를 한다. 매일 컴퓨터 간 데이터를 체크해 틀린 부분을 조정한다. 데이터품질관리를 위해 품질관리위원회도 별도로 두고 있다. 품질관리는 정책이 있어야 하고 이러한 활동은 꾸준히 진행돼야 한다.
◇이철환=다국적 DB솔루션 업체 관점에서 한국은 세계 최고의 고객이라고 할 수 있다. 보수적인 금융권에서 DB관리 솔루션을 앞서 도입한다. 다른 어떤 나라도 위험 가능성 때문에 주저하는 부분을 한국은 과감하게 진행하고 있다.
◇이용효=데이터 프로세스는 비즈니스 전반에 걸쳐 있다. 전사적인 관리 프로세스가 필요하다. CEO 입장에서 투자가 많이 돼야 한다. 데이터관리를 위한 전문인력이 필요하다.
앞으로 데이터는 비용과 직결된다. 금융권에서는 이미 이를 알고 있다.
◇이정우=문제는 고급인력이다. 대학 학부에서 과목 몇 개 듣는 것으로 안 된다. 최소한 대학원 수준에서 여러 분야를 넓게 볼 수 있는 인력이 필요하다. 실무에서도 현장경험이 있는 인력이 필요하다.
◇김인현=데이터 품질을 잘 관리했더니 회사의 성과가 높아졌다는 성공사례가 필요하다. 포스코는 PI작업 하려다 보니 코드가 달라 데이터를 맞추기 위한 작업을 추진했다. 이러한 사례가 많이 나와야 한다.
◇박재현=우선 데이터 관리가 중요한데 누구나 이해할 수 있는 활동이 필요하다. 진흥센터에서는 이를 위해 콘퍼런스, 세미나, 교육, 시상 등을 진행한다. 또 단체가 제도화된 프레임웍을 만들어 보급하고 접목할 수 있도록 해야 한다. 미국은 2000년에 정보품질법을 제정 15개 기관이 이를 적용하고 있다. 국내에서도 공공기관이 가진 정보를 어떻게 할용할 것인지에 대한 법안작업을 추진 중이다.
◇이용효=데이터 품질관리 작업을 데이터 아키텍처와 함께 추진할 경우 성과가 빠르다. 성능은 20배, 저장 공간도 30배 늘릴 수 있다는 점을 CEO에 적극 알려야 한다.
특히 운용시스템에 미치는 영향은 막대하다. 품질관리와 아키텍쳐를 동시에 추진할 필요성이 있다. 아울러 예산당국이 예산 우선순위를 데이터 품질관리에 두도록 해야 한다.
◇이철환=사람이 없다. 경력이 5∼10년 되도 필요한 분야를 커버 못하는 실정이다. 고급인력만 있다면 이 분야를 활성화하기에는 적기다. 물론 고급인력은 직장이나 보수가 맞아야 한다. 데이터 질에 관심 있는 사람들은 많은데 함께 모여 듣고 얘기할 수 있는 장이 부족하다.
◇사회=데이터 품질의 중요성에 대해서는 누구나 공감한다. 하지만 국내 데이터 품질관리는 아직 초기 단계로 대다수의 기관이나 기업은 데이터 오류가 발생했을 때 임기응변식으로 문제를 해결하는 실정이다. 데이터 관리 정책, 데이터 표준화, 데이터 구조, 데이터 흐름 등을 아우르는 총괄적인 데이터 품질관리 지침을 마련하는 한편 전문인력 양성이 시급하다는 결론이다.
윤대원기자@전자신문, yun1972@