高维空间中自然声音的鲁棒分层稀疏表示
1. 引言
通常认为,像语音这样的复杂声音是由基本和中间子单元(如音素、音节)组成的,这些子单元的组合可以生成更高级的听觉对象,如单词。然而,如何精确地定义这些听觉对象,以及它们在声学信号中的时间和频谱跨度(即尺度),目前仍不清楚。在现实环境中,多种有用信号和噪声信号混合在一起,这给底层成分的估计带来了很大的不确定性。
从神经科学领域可知,神经元群体的稀疏性和高维表示是大脑的基本特性,同时,中枢听觉系统和大脑皮层中与语言相关区域对语音进行分层处理。在人工系统中,在分层框架中更好地整合声学上下文,最近在自发语音识别方面取得了重大成功。如果选择合适的字典学习算法,稀疏和高维空间也能展现出强大的判别能力。应优先使用无监督学习算法,以使估计的成分能内在地适应信号的统计特性。常用的信号处理和信息论算法可以为任何声学信号推导出稀疏和高维表示,有望提高模型质量和增强鲁棒性。
本文旨在将声学信号转换为有意义且鲁棒的基于对象的表示,以适应手头的识别或分类任务。在分类器中利用稀疏和高维空间,而不仅仅是在特征提取阶段,也被认为是减轻不良声学成分干扰和变异性的一种解决方案。本文将重点关注由特定频谱 - 时间调制模式定义的成分。这些模式可以从自然声音中以无监督的方式轻松学习,并且通常在时间和频率上都具有局部性。这意味着可以从输入信号中提取特定且独立的类事件成分,从而更好地对背景加性噪声中的语音进行建模。
2. 提出的方法
耳蜗图是声音的一种频谱 - 时间表示,其中带通滤波器的参数源自对耳蜗的神经生理学观察。与常用的窄带频谱图相比,它更注重时间分辨率(以牺牲频谱分辨率为代价)。每个滤波器输出的幅度调制携带信息。
<
超级会员免费看
订阅专栏 解锁全文
4508

被折叠的 条评论
为什么被折叠?



