[이슈분석/댓글로 본 이익공유제]이익공유제 댓글 어떻게 분석했나

이번 조사는 입법 빅데이터 분석 리서치 기업인 폴메트릭스와 공동으로 진행했다. 폴메트릭스는 정치와 국회, 입법 등 분야 각종 데이터를 빅데이터와 인공지능(AI)을 활용해 분석하고 있다. 지난해 총선에서 연동형비례대표제 예상 의석수 계산기로 관심을 받았고 최근에는 법안 가결 예측서비스를 선보이기도 했다.

댓글은 네이버에 뉴스 콘텐츠를 서비스하는 언론사 총 47곳의 이익공유제 관련 뉴스에서 추출했다. 11일부터 15일까지 총 488개 뉴스에 달린 댓글 2만6968개의 빅데이터에서 긍정과 부정을 분류했다.

긍정과 부정 분류에는 AI 머신러닝 기법을 활용했다. 전체 댓글 중 20% 댓글을 샘플로 먼저 뽑아 '긍정'과 '부정'을 라벨링 하고, 이를 학습시켜 나머지 댓글의 긍정과 부정 의견을 나눴다.

상위 10개 연관키워드에서 일부 유사 키워드는 병합했다. 부정댓글에서는 나라, 국가, 정부, 등 1000건 이상 언급된 유사 키워드를 하나로 합쳤다. 월급 키워드에서는 연봉, 급여 등 유사키워드가 추출됐지만 1000건이상 언급되지 않아 생략했다.

상대적으로 모수가 적었던 긍정댓글은 기업, 업체 등 10건 이상 언급되는 유사 키워드를 병합했다.

조정형기자 jenie@etnews.com