谷歌与微软的语音识别技术研究进展
语音识别技术近年来取得了显著进展,广泛应用于各种设备和服务中。谷歌和微软在这一领域进行了深入的研究,以解决语音识别在实际应用中面临的各种挑战。
谷歌:实现通用语音接口的语音研究
随着智能手机语音输入的成功普及,人们对在嘈杂和远场条件下使用语音接口的需求日益增长。例如,智能助手、可穿戴设备和车载应用等场景都需要语音识别在复杂环境中保持准确。然而,这种场景的转变带来了巨大的技术挑战,但用户却期望能获得与在安静环境中使用手机时相同的体验。
为了实现这一目标,谷歌在语音增强方面进行了多年研究,开发出了多种算法,以支持在远场和/或嘈杂条件下进行自动语音识别(ASR)。特别是多麦克风(或多通道)系统,通常会应用语音增强技术将多通道输入转换为单通道信号,以减少混响和噪声对识别准确性的负面影响。这个增强过程通常包括三个阶段:
1. 定位 :估计语音信号的方向。
2. 波束形成 :实现空间滤波,放大特定方向的信号,抑制其他方向的输入。
3. 后滤波 :进一步优化信号。
然而,多通道处理在实际应用中面临诸多挑战。例如,定位估计的误差可能导致波束形成增强噪声而抑制语音,从而降低识别性能。此外,定位、空间滤波和后滤波的优化目标通常是代理指标,与提高识别准确性的最终目标并不直接相关,这可能导致即使各个子部分成功优化了自身目标,整个系统也无法受益。
为了解决这些问题,谷歌扩展了神经网络架构,以实现增强和识别模型的联合优化。具体做法如下:
1. 将识别系统的前端处理直
超级会员免费看
订阅专栏 解锁全文
1600

被折叠的 条评论
为什么被折叠?



