[손병채의 센스메이킹]〈10〉기계가 소비자가 될 때

손병채 ROC(Reason of creativity) 대표
손병채 ROC(Reason of creativity) 대표

“인공지능(AI) 합성 소비자와 함께 아이디어나 제품을 테스트하고 자신 있게 의사를 결정하세요.” 지난 2월 등장한 신시틱 유저(Synthetic Users) 서비스는 이름 그대로 제품 개발 관련 사용자 리서치 대상을 인간이 아니라 생성된 가상 소비자로 제공한다. 가상 인간을 대상으로 인터뷰 및 설문조사 진행이 가능하다. 제품 사용 경험 관련 피드백도 얻을 수 있고, 장기 연애 중인 유럽의 커플 등과 같은 타깃 고객의 구체적 상황 설정 기능 및 관련 인터뷰 데이터 100개에 380달러라는 획기적 비용 절감 효과까지 제공한다.

서비스를 접한 민족지학, 사회학, 인류학 전공자 커뮤니티에서는 불쾌하다, 위기감을 느낀다 혹은 재미있다는 다양한 반응을 쏟아내고 있다.

이는 '합성된' 창작물이 아닌 사람 자체를 이해하는 작업인 질적 리서치에서 인간 본연의 정체성, 목적, 즐거움, 가치에 대한 기준이 생각보다 쉽게 복사되고 이해될 수 있는 게 아닐까라는 불안감과 실제 사람이 현실에서 겪는 골칫거리가 구성되는 복잡한 사회·정치적 상황 및 상호 이해관계를 충분히 구현하지 못할 거라는 냉소적 시선을 포함한다.

사실 이 같은 합성 데이터는 새로운 개념이 아니다. 합성 데이터는 데이터 집합을 구하기 어려울 때 특히 유용하다. 자동차 제조업체의 가상 자동차 시뮬레이션 시 운전자 행동을 모방해 방대하고 다양한 상황에서 모델을 훈련하는 데 활용하거나 270만명 이상의 코로나19 환자 기록 데이터를 복제해 통계적 특성은 동일하지만 식별 정보가 없는 데이터 세트를 만들어서 세계 연구자들이 신속하게 공유하고 연구할 수 있도록 사용됐다. 그러나 챗GPT가 거의 모든 분야의 서비스에 적용해 급격히 퍼지고 있는 현 상황은 급증하고 있던 합성 데이터 수요가 폭발적으로 증가하는 계기가 됐고, 그 범위가 이제는 인사이트를 얻는 인간의 일상마저 합성 데이터로 대체될 수 있다고 주장하는 서비스까지 낳게 된 것이다. 특히 신시틱 유저 서비스가 가장 명확하게 드러내는 합성 데이터 활용과 관련된 우려는 '현실과의 격차', 즉 '데이터'와 '진실'에 대한 정의가 새로워져야 할 필요를 확인케 한다.

우리는 이미 잘못된 정보 시대에 살고 있으며, 우리가 보는 모든 데이터의 출처와 편견을 이해하는 것이 점점 더 어려워지고 있다. 앞으로 쏟아질 합성 데이터의 홍수는 '실제'와 '인공' 간 경계를 더욱 모호하게 할 뿐만 아니라 일반 데이터 소비자가 원본 데이터의 출처, 수집 및 조작 방법, 결과적으로 어느 정도까지 신뢰해야 하는지 비판적으로 평가하는 것을 더 어렵게 할 것이다.

이 때문에 합성 데이터 혁명이 우리가 의도하지 않은 세상을 생성하지 않도록 하기 위한 가장 중요한 시작은 큰 데이터가 아닌 작은 데이터라는 점에 주목해야 한다. 오늘날 많은 기업이 편향되거나 불완전한 데이터 세트가 분명한데도 사용할 수 있는 모든 데이터에 기반을 두고 의사를 결정하는 이른바 '데이터 기반 의사 결정'에 집중하는 경향을 볼 수 있다. 이 때문에 합성 데이터는 우리가 찾을 수 있는 최고의 현실 데이터에서 비롯되어야 한다. 또한 이때 데이터에서 가장 중요한 것이 무엇이고 왜 중요한지에 대한 깊은 맥락적 이해와 가능한 한 최고 품질의 초기 데이터 집합을 제공해야 한다.

사람들이 말하는 것과 행동하는 것의 차이 또는 우리가 취하는 행동에 대한 삶의 예상치 못한 영향과 같은 가장 최근의 근본적인 인간 현상에 대한 엄격한 이해를 기반으로 하지 않는다면, 회사와 일반인 모두에게 해를 끼치는 방식으로 현실을 위협하는 사회 세계를 시뮬레이션할 위험이 있기 때문이다.

앞으로 합성 데이터는 우리 일상에서 훨씬 큰 부분을 차지하게 될 것이다. 세상에 대한 우리 경험을 형성하는 알고리즘부터 데이터와 현실에 대한 이해에 이르기까지 모든 것을 재구성할 잠재력이 있다. 이러한 중요한 결정을 의도가 아무리 좋다 하더라도 일부 데이터 과학자에게만 맡기기에는 위험 부담이 너무 크다. 사회과학 및 인문과학 분야 전문가들과의 협업도 필요할 것이다. 이는 단순히 합성 데이터가 현재의 일부 데이터 세트보다 도움이 되지 않거나 더 나빠서가 아니라 오히려 너무 많은 가능성을 이룰 수 있다는 두려움에서 기인한다.

손병채 ROC(Reason of creativity) 대표 ryan@reasonofcreativity.com