Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

原创

于 2023-09-01 11:01:22 发布 · 6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#火山引擎 #音视频 #人工智能

背景介绍

为了应对处理各类复杂音视频通信场景，如多设备、多人、多噪音场景，流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验，使用户听得清、听得真，流媒体音频技术方案融合了传统机器学习和基于AI的语音增强方案，利用深度神经网络技术方案，在语音降噪、回声消除、干扰人声消除和音频编解码等方向，为实时通信中的音频质量保驾护航。

作为语音信号处理研究领域的旗舰国际会议，Interspeech一直代表着声学领域技术最前沿的研究方向，Interspeech 2023 收录了多篇和音频信号语音增强算法相关的文章，其中，火山引擎流媒体音频团队共有 4 篇研究论文被大会接收，论文方向包括语音增强、基于AI编解码 、回声消除、无监督自适应语音增强。

值得一提的是，在无监督自适应语音增强领域，字节跳动与西工大联合团队在今年的CHiME (Computational Hearing in Multisource Environments) 挑战赛子任务无监督域自适应对话语音增强（Unsupervised domain adaptation for conversational speech enhancement, UDASE) 获得了冠军(https://www.chimechallenge.org/current/task2/results)。CHiME挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起的一项重要国际赛事，重点围绕语音研究领域极具挑战的远场语音处理相关任务，今年已举办到第七届。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院等国际著名高校和研究机构，以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞等国内顶尖院校和研究所。

本文将介绍这 4 篇论文解决的核心场景问题和技术方案，分享火山引擎流媒体音频团队在语音增强，基于AI编码器，回声消除和无监督自适应语音增强领域的思考与实践。

基于可学习梳状滤波器的轻量级语音谐波增强方法

论文地址：https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html

背景

受限于时延和计算资源，实时音视频通信场景下的语音增强，通常使用基于滤波器组的输入特征。通过梅尔和ERB等滤波器组，原始频谱被压缩至维度更低的子带域。在子带域上，基于深度学习的语音增强模型的输出是子带的语音增益，该增益代表了目标语音能量的占比。然而，由于频谱细节丢失，在压缩的子带域上增强的音频是模糊的，通常需要后处理以增强谐波。RNNoise和PercepNet等使用梳状滤波器增强谐波，但由于基频估计以及梳状滤波增益计算和模型解耦，它们无法被端到端优化；DeepFilterNet使用一个时频域滤波器抑制谐波间噪声，但并没有显式利用语音的基频信息。针对上述问题，团队提出了一种基于可学习梳状滤波器的语音谐波增强方法，该方法融合了基频估计和梳状滤波，且梳状滤波的增益可以被端到端优化。实验显示，该方法可以在和现有方法相当的计算量下实现更好的谐波增强。