基于 Demucs 网络结构的丢包隐藏方法
1. 引言
在当今互联互通的世界中,语音通信在实时人际交互中扮演着重要角色,因此保持语音通信的高质量至关重要。然而,由于网络拥塞或延迟,语音通信(如 VoIP)中不可避免地会出现丢包现象,这会导致语音通信中断,降低整体通信体验。丢包隐藏(PLC)技术通过利用语音数据包之间的相关性,根据之前的数据包来估计丢失的数据包,从而恢复语音通信的质量。
传统的 PLC 技术,如基于线性预测(LP)的算法和基于隐马尔可夫模型(HMM)的算法,在处理连续丢包或高丢包率时,可能会产生令人讨厌的伪影,性能不尽如人意。随着深度学习在语音信号处理领域的广泛应用,大量基于深度学习的 PLC 方法应运而生,这些方法在复杂场景下表现更优。
深度学习 PLC 算法主要分为在线处理和离线处理两类:
- 在线处理 :系统仅根据之前的内容对丢失的帧进行实时预测,通常具有低延迟的优点。例如,使用深度神经网络(DNN)分别映射丢失帧的幅度和相位信息,但该方法在估计非结构化相位时存在困难。后来,卷积循环网络(CRN)被用于直接在原始音频帧上估计后续帧,它能够捕捉语音帧的长期依赖关系,并将在线训练融入框架。
- 离线处理 :处理包含丢失数据包的较大音频段,并利用语音帧的前后文信息。例如,使用自动编码神经网络映射幅度信息,结合传统算法估计相位信息;引入 U - Net 架构和生成对抗网络(GAN)等方法,但这些方法往往以增加延迟为代价来提高语音质量。
基于以上分析,本文提出了一种基于 Demucs 网络结构的时域丢包隐藏方法。该方法基于一系列因果卷积和 LSTM 层构建
超级会员免费看
订阅专栏 解锁全文
5129

被折叠的 条评论
为什么被折叠?



