基于AMI语料库的远场语音识别实验
1. 引言
远场对话语音识别面临诸多技术挑战,如多个重叠声源(包括多个说话者)、混响声学环境以及高度对话化的说话风格等。自20世纪90年代初以来,基于麦克风阵列的方法就被用于解决这一任务。从2004年左右开始,出现了各种远场语音识别的评估框架,包括多通道《华尔街日报》视听语料库(MC - WSJ - AV)、NIST丰富转录(RT)系列评估、REVERB挑战和CHiME挑战等。
2004年至2009年,NIST RT评估主要关注会议转录问题,使得不同的自动会议转录系统能够进行比较。声学数据根据记录条件分为:个人头戴式麦克风(IHM)、单个远场麦克风(SDM)和多个远场麦克风(MDM)。MDM条件通常使用桌面麦克风阵列,而SDM条件则从阵列中选择单个麦克风。
对于MDM系统,麦克风阵列处理通常与语音识别分开。例如,Hain等人的AMIDA MDM系统使用维纳噪声滤波器处理多通道麦克风阵列数据,然后基于到达时间差(TDOA)估计进行加权滤波器 - 和波束形成,并使用维特比平滑器进行后处理。最终,波束形成器跟踪最大能量方向,并将波束形成后的信号传递给传统的自动语音识别(ASR)系统。
“深度学习”的一个主要原则是,分类和回归系统可以由多个使用共同目标函数进行优化的模块构建而成。在远场语音识别中,这导致了诸如LIMABEAM等方法的出现,其中麦克风阵列波束形成器的参数被估计以最大化正确话语模型的可能性。Marino和Hain探索了完全去除波束形成组件,直接将不同麦克风的特征向量连接起来作为HMM/GMM语音识别系统的输入特征。
2. 会议语料库
会议转录工作主要得益于两个语料库:ICSI会
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



