深度神经网络在听觉流形成研究中的应用与挑战
1. 神经网络在听觉场景分析中的崛起
在自动目标识别领域,人工神经网络的出现是一个重要的里程碑,尤其在听觉和视觉研究方面。直到最近,传统人工神经网络在复杂应用领域的表现还难以与人类相媲美。但随着深度学习技术的出现,这一状况得到了改变。深度学习被描述为机器学习的一个子领域,它从数据中提取信息,通过概念层次结构,从较不抽象的概念构建出更抽象的概念。这意味着网络各层处理的信息复杂度会随着层级的升高而增加。
深度学习技术在自动语音识别和图像识别等领域产生了深远影响,在听觉流形成领域也不例外。例如,Chakrabarty和Elhilali提出的模型基于时间连贯性,其输入是类似耳蜗图的时频谱表示,经过三层人工神经网络处理。第一层“同时层”用于扫描传入听觉信息中的同时声音元素;第二层“顺序层”扫描顺序声音元素;第三层“时间连贯层”作为合成层,基于时间连贯性将信息整合到听觉流中。该架构能够模拟广泛的听觉场景分离现象,并且与格式塔原则相关联。
| 模型名称 | 输入 | 处理层 | 功能 |
|---|---|---|---|
| Chakrabarty和Elhilali模型 | 类似耳蜗图的时频谱表示 | 同时层、顺序层、时间连贯层 | 扫描声音元素并整合到听觉流 |
graph L
超级会员免费看
订阅专栏 解锁全文

1031

被折叠的 条评论
为什么被折叠?



