环境声音识别与空间计算:技术融合与创新应用
环境声音识别的深度元模型
环境声音识别(ESR)在如今的技术领域中具有重要意义,能够帮助我们更好地理解和感知周围的环境。下面将详细介绍一种用于环境声音识别的深度元模型。
方法架构
提出的ESR系统架构由五个基础模型和一个深度元模型组成。基础模型通过分析给定环境声音对应的频谱图生成分类结果,深度元模型则高效地组合这些基础模型的分类结果,以生成最终的共识结果。
-
基础模型 :
- FractalNet :是一种特定类型的CNN模型,没有残差连接,但采用分形设计。通过递归执行扩展规则,形成具有分形基本单元的深度网络结构,不同子路径之间存在对应关系,且不包含直通相互依赖。
- ResNeXt :基于分治范式,旨在减少与ResNet相比的超参数数量。通过引入基数的概念,将其作为除深度和宽度之外的额外维度,将ResNet的重复方案和InceptionNet的分裂 - 变换 - 合并原则相结合构建架构。
- Wide Residual Network (WideResNet) :是ResNet的一种替代方案,减少了残差网络的深度,增加了宽度。借助宽残差块,增加卷积层中的滤波器数量。
- Squeeze and Excitation Network (SENet) :包含专门设计的挤压和激励(SE)单元,以增强CN
超级会员免费看
订阅专栏 解锁全文
3746

被折叠的 条评论
为什么被折叠?



