基于相位感知神经网络的判别式波束形成用于语音增强和识别
1. 引言
波束形成算法能够将在不同位置记录的多个麦克风信号进行组合,突出感兴趣的信号,同时抑制其他信号。随着技术发展,波束形成算法从基于麦克风阵列几何形状和信号空间位置的方法,逐渐演变为基于数据驱动的方法。本文将介绍一种新方法,该方法可调整波束形成滤波器,直接最大化自动语音识别(ASR)性能,并使 ASR 声学模型能适应波束形成器的输出。
波束形成方法可分为以下三类:
| 类别 | 特点 | 示例 |
| ---- | ---- | ---- |
| 几何波束形成 | 主要依赖阵列几何形状和信号源空间位置确定波束形成参数 | 延迟求和(DS)波束形成、超指向性波束形成 |
| 统计方法 | 除几何信息外,还依赖目标信号和噪声的特征 | 线性约束最小方差(LCMV)波束形成器、最小方差无失真响应(MVDR)波束形成器、多通道维纳滤波器(MWF) |
| 基于学习的方法 | 利用大量单通道/多通道信号学习先验知识,波束形成模块和声学建模模块可集成优化 | 最大似然方法、多通道输入的神经网络方法、用于更好空间统计估计的神经网络方法 |
下面将详细介绍这三类方法。
2. 用于 ASR 的波束形成
2.1 几何波束形成
当麦克风阵列从单一方向记录声音时,声音到达每个麦克风的时间会略有不同。假设时域中原始感兴趣信号为 (x_1[n]),在 (J) 个麦克风处记录到 (I - 1) 个其他信号,则第 (j) 个麦克风记录的信号 (y_j[n]) 为:
[y_j[n] = \sum_{i = 1}^{I} \sum_{l = 1
超级会员免费看
订阅专栏 解锁全文
3880

被折叠的 条评论
为什么被折叠?



