DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO
文章目录1. 简介2. 模型架构2.1 分段2.2 块处理2.3 重叠相加3. 实验部分1. 简介DPRNN提出的依据:因此如果出现超长的语音序列,使用传统的RNN模型将无法高效的处理。而一维卷积的感受野小于音频序列长度,因此无法进行utterance-level的语音分离。DPRNN 是一种双路径递归神经网络,在深度模型上优化RNN,使其可以对极长的语音序列进行建模。其将较长的音频片段分成较小的块(chunk),迭代应用块内和块间操作。当前时域的语音分离方法主要分为两个部分:自适应前端和直接回归
原创
2022-04-04 16:49:52 ·
3154 阅读 ·
0 评论