정보바다 진주찾기 텍스트마이닝 뜬다

발행일 : 2003-10-20 17:09

SPSS·클리어포리스트 등 새 SW `봇물`

　‘텍스트마이닝(textmining)이 뜬다.’

　뉴욕타임즈는 디지털 시대를 맞아 산처럼 쌓이는 정보를 검색해야 하는 사람들이 늘면서 필요한 정보를 효과적으로 찾아 주는 ‘텍스트 마이닝’이 새로운 조류로 부상하고 있다고 보도했다.

　펜실베니아대 교수이자 아브람슨패밀리암 연구기관에서 바이오의학 분야를 책임지고 있는 마이클 리브먼은 요즘 산적한 텍스트의 ‘한계’를 절감해 왔지만 텍스트마이닝으로 이를 해소했다.

　오랫동안 암, 특히 유방암 연구에 전념해온 그가 느끼는 한계는 참고해야 할 자료가 너무 많다는 것이었다.

　그가 가장 많이 참고하는 의학관련 데이터베이스인 ‘메드라인(Medline)’의 경우 잡지에 실린 기사를 1000만건 이상 수록하고 있다. 여기에 매주 7000∼8000건의 기사가 추가된다. 이같은 자료의 산인 메드라인 데이터베이스 중 리브먼 박사가 정작 원하는 암 분야 자료는 채 얼마되지 않아 검색에 애를 먹었다.

　이같은 그의 고민을 깨끗이 씻어준 해결사는 그가 최근 사용하기 시작한 텍스트 마이닝 소프트웨어(SW)였다.

　리브먼 교수가 사용하는 텍스트마이닝 SW는 시카고에 있는 업체가 만든 ‘SPSS’라는 것인데 한시간에 25만페이지를 읽을 수 있다. 또다른 텍스트마이닝 업체인 클리어포리스트 제품의 경우 시간당 1만5000페이지를 읽을 수 있는데 이는 사람이 보통 1시간에 60페이지밖에 못읽는 것과 비교할 때 그 빠르기를 짐작할 수 있다.

　텍스트마이닝은 일견 구글과 같은 웹검색 엔진과 비슷해 보인다. 하지만 검색엔진이 단순히 정보를 불러와 특정한 단어가 포함된 문서 목록만을 제시해주는 데 반해 텍스트마이닝은 이보다 진화돼 정보를 범주(카테고리)화한후 비연관 문서들을 서로 연계시켜 준다. 그런후 나무가지처럼 생긴 가상 지도(map)까지 제시한다.

　또 텍스트마이닝은 데이터마이닝에 기초하고 있지만 이보다 정보 검색 능력이 훨씬 우수하다.

　이는 데이터마이닝이 제품 재고, 고객 분석 같은 구조적 데이터베이스의 정보만을 불러들이는 반면 텍스트마이닝은 전자메일 메시지, 신문기사, 내부 보고서 같은 비구조적 문서에서도 작동가능 하기 때문에 영향력과 파급력이 훨씬 크다.

　현재 텍스트 마이닝 프로그램은 학계와 기업에서 주로 사용하고 있는데 정보과학자들은 점차 가격이 낮아지면서 일반인들도 사용하게 될 것으로 전망하고 있다. 텍스트 분석의 전문가 이자 인도 방갈로르에서 K프락시스(K-Praxis)라는 웹사이트를 운용하고 있는 마단 판딧은 “텍스트마이닝이 사람들로 하여금 산더미 같은 문서를 효과적으로 검색, 살아있는 정보검색을 가능하게 해줄 것”이라고 장점을 설명하며 “하지만 텍스트마이닝은 언어의 뉘앙스까지는 잡아 내지 못하는 단점을 안고 있다”고 말했다.

　<방은주기자 ejbang@etnews.co.kr>