국내 음향 인공지능(AI) 스타트업 디플리(Deeply·대표 이수지)가 세계 최정상 음향·음성 학회에서 한국 기술의 우수성을 다시 한번 입증하며 주목할 만한 성과를 거뒀다.
디플리는 지난 17일부터 21일까지 네덜란드 로테르담에서 개최된 세계 최고 권위의 음성 학회 '인터스피치(Interspeech) 2025'에서 산업 현장의 오랜 난제였던 '마이크 간 음향 차이'를 해결한 핵심 기술을 성공적으로 선보였다고 22일 밝혔다.
이번 발표는 지난 4월 그리스에서 열린 신호처리 분야 최대 학회 'ICASSP 2025'에서 2편의 논문이 채택된 데 이어 2년 연속 세계적인 연구 성과를 인정받는 성과로 이어졌다. 최근 2년간 톱티어 글로벌 학회에 총 4편의 논문을 게재한 것은 국내를 넘어 세계적으로도 인정받고 있음을 보여준다.

디플리가 'Interspeech 2025'에서 발표한 '통일된 마이크로폰 변환(Unified Microphone Conversion)' 기술은 음향 AI 분야의 오랜 숙원을 해결한 돌파구로 평가받는다. 서로 다른 마이크나 녹음 기기로 인해 발생하는 음향 데이터의 불일치 문제는 산업 현장에서 AI 정확도를 떨어뜨리는 주요 원인으로 꼽혀왔다.
디플리는 이를 해결하기 위해 획기적인 접근법을 제시했다. 각 마이크 조합마다 별도의 AI 모델이 필요했던 번거로운 기존 방식과 달리, 피처 와이즈 선형 모듈레이션(FiLM) 기법을 활용해 단일 모델로 다양한 마이크의 특성을 일반화하는 '다대다 변환' 기술을 최초로 구현했다.
실험 결과, 이 기술은 기존 최고 성능 모델 대비 인식 정확도를 2.6%p 향상시키고 장치 간 성능 편차를 0.8%p 줄이는 성능을 입증했다. 특히 실제 데이터 수집 없이 합성 데이터만으로도 높은 성능을 구현해 상용화 비용과 시간을 획기적으로 절감할 수 있는 것으로 평가를 받았다.
디플리의 기술은 음향 AI의 다양한 영역으로 확장되고 있다. ICASSP 2025에서 선보인 두 편의 논문 중 하나는 위기 상황 대응을 위한 기술로, 대규모 음성 모델 'Whisper'를 기반으로 소음이 심한 극한 환경에서도 도움 요청 음성을 정확하게 탐지한다.
음성 인식과 소음 분류를 동시에 학습하는 멀티태스크 방식을 적용해 실제 환경에서 88.5%라는 높은 정확도를 기록, 생명과 직결될 수 있는 위기 상황에서 신속하고 정확한 대응 솔루션임을 제시했다.
디플리의 가장 큰 강점은 연구 성과를 논문에 그치지 않고 즉시 제품에 적용해 현장에 연결하는 '완결형 혁신' 주기를 갖췄다는 점이다. 이번 학회에서 발표된 기술들은 이미 회사 핵심 플랫폼인 '리슨(Listen) AI'에 적용됐고, 국내외 제조 라인, 공공 안전망, 스마트 시티 프로젝트 등에서 성과를 냈다.
자체 무반향실, 음향 데이터 수집 시스템, 고성능 컴퓨팅 인프라를 갖춰 연구부터 배포까지의 전 과정을 사내에서 수행할 수 있는 능력은 국내 스타트업 중에서는 드문 사례다. 석·박사급 연구 인력이 주도하는 체계적 연구개발(R&D)은 디플리가 세계적인 학회에서 빠르게 성과를 낸 원동력이 되고 있다.
음향 AI는 단순 음성 인식을 넘어 기계의 상태 및 위험 감지, 산업 안전 향상 등 을 차세대 핵심 인프라로 부상하고 있다. 디플리의 기술이 주목받는 이유는 사람의 귀보다 더 정밀하게 소리를 듣고 분석해 제조업의 예지보전 및 도시를 안전하게 지키는 기능이다.
디플리 관계자는 “AI가 눈으로 보고 귀로 듣는 시대에, '소리'는 현장의 위험을 가장 먼저 알려주는 신호”라며 “Interspeech와 ICASSP 연속 발표를 계기로 글로벌 협업과 사업 확장을 가속화할 것”이라고 밝혔다.
이경민 기자 kmlee@etnews.com