40、智能家居中的音频事件识别

智能家居音频事件识别挑战与进展

智能家居中的音频事件识别

1. 音频事件建模新思路

传统的音频事件识别(AER)常把声音事件定义为瞬间声学帧的集合,依赖逐帧分类机器。但现在有新思路,可从数据中学习典型音素持续时间,而不是依赖隐式的顺序一致性。也可以借鉴早期语音识别中使用的语言模型的概念,采用 n - 元语法或多元语法的解决方案。

这一思路希望能引发思维转变,将声音事件建模为中断的声学序列,更紧密地整合瞬间声学建模与更广泛的时间和结构模型。不过,将这些技术应用于 AER 领域的结果还有待更广泛地发表。

2. 24/7 连续声音识别作为开放集问题

2.1 开放集识别的提出

过去科学出版物中的系统评估常将 AER 简化为封闭集问题,通过涉及有限数量声音类别的实验进行报告。但实际应用中的 AER 系统是 24/7 监听的,与语音识别系统不同,它没有唤醒按钮或由关键词触发。

非目标声音集合虽受目标环境一定限制,但难以详尽枚举干扰性非目标声音类别。因此,实际 AER 问题的混淆矩阵更适合形式化为 1×近乎无穷大,即开放集识别。

2.2 开放集识别的进展

在图像识别领域,开放集识别取得了进展。其理论引入了开放空间风险的概念,作为经验风险概念的补充,通过额外的优化阶段平衡和调节经验风险的最小化。

具体应用包括将二元支持向量机(SVMs)和一类 SVM 扩展为“二元 1 - 对 - 集”机器,在泛化和拒绝完全未见类别方面有显著改进。开放集深度神经网络(DNNs)用于图像分类也有成功报道,在抵抗对抗性图像和检测未知类别方面表现良好。早期将开放集方法应用于音频场景分类的结果显示,特定类型的一类 SVM 在两个有限大小的公共数据集上有良好的泛化结果,但这些结果还需扩展到音频事件识别、在更大数据集上测试,并开发其他开放集机器。

2.3 当前评估指标的局限性

将 24/7 AER 问题视为开放集问题凸显了当前使用 F - 分数、精度、召回率等相关指标进行评估的局限性:
- 依赖测试集组成 :这些指标高度依赖所考虑测试集的组成和平衡。
- 假设不成立 :它们假设声音是可识别的正或负单元,但在 24/7 声音识别环境中,非目标声音可能是连续的。

在 24/7 声音识别环境中,系统长时间暴露于大量非目标声音,非目标声音的先验概率趋于 1,目标声音概率趋于 0。假设误报数量与暴露于非目标声音的程度成正比,那么精度和 F - 分数会随时间趋于 0,而 AER 系统本身并无变化。

2.4 初步解决方案

一种初步解决方案是采用单位时间的误报率,而不是绝对误报计数。例如,在关键词检测中使用涉及单位时间误报率的检测误差权衡(DET)曲线。DET 曲线除了使用单位时间误报率外,还有一个优势是能将判别与校准分离。

以下是当前评估指标局限性的总结表格:
| 局限性 | 具体描述 |
| ---- | ---- |
| 依赖测试集组成 | 高度依赖所考虑测试集的组成和平衡 |
| 假设不成立 | 假设声音是可识别正或负单元,而 24/7 环境中非目标声音可能是连续的 |

下面是开放集识别相关进展的流程图:

graph LR
    A[图像识别领域进展] --> B[引入开放空间风险概念]
    B --> C[扩展 SVM 到“二元 1 - 对 - 集”机器]
    B --> D[开发开放集 DNNs 用于图像分类]
    E[音频场景分类] --> F[一类 SVM 取得泛化结果]
    F --> G[需扩展到音频事件识别]

3. 应对有限音频质量和计算能力

3.1 音频捕获通道的变化和局限性

与手机不同,许多智能家居设备的音频捕获质量有限。音频设备质量两极分化,常见的智能家居设备提供 16 kHz、单声道、16 位数字音频,由中等质量的 MEMS 或驻极体麦克风捕获,配备低成本数字编解码器芯片;而较昂贵的智能家居助手设备如亚马逊 Echo 或谷歌 Home 引入了由强大数字信号处理(DSP)硬件加速子系统支持的麦克风阵列。

AER 研究的一个挑战是开发对低质量音频、通道失真和加性噪声具有鲁棒性的方法和算法。标准降噪技术对简单加性白噪声可能有效,但对于更复杂和非平稳的失真,如电磁干扰(EMI)噪声或 Wi - Fi 数字通信干扰,解决起来更困难。

现有的远场音频增强方法通常针对语音信号,将其推广到捕获其他声音仍是一个研究不足的课题。基于以上考虑,有以下几点建议:
- 明确将通道鲁棒性作为 AER 研究的一个重要主题。
- 大多数公开可用数据集的局限性在于缺乏通道识别或通道多样性,这阻碍了应对通道可变性方法的设计和评估。
- 目前已知的改善远场语音识别的方法不一定能顺利应用于 AER,因为语音和更广泛的环境声音在声学性质上存在差异。

3.2 有限的计算能力和内存容量

大多数智能家居应用嵌入到计算能力无法与 PC 相比的硬件产品中。物联网(IoT)设备大致可分为两类:
- 单一功能设备 :使用低成本处理器以达到用户愿意支付的价格点。
- 附加功能设备 :将声音识别作为附加功能添加到现有产品中,要求算法适应设备的现有设计和价格点。

处理器的以下特征共同决定了其财务成本和嵌入式计算的约束水平:
- 时钟速度与能耗相关。
- 指令集与芯片尺寸和制造成本相关,某些情况下包含特殊指令集以在单个时钟周期内并行执行更多操作。
- 架构定义了寄存器数量、核心数量、浮点单元(FPU)、图形处理单元(GPU)和/或数字信号处理(DSP)单元的存在与否。

虽然云计算可解决计算能力约束,但对于 AESR 应用,存在一些设计考虑因素可能排除其使用:
- 云通信引入的延迟可能对时间关键的安全应用造成问题。
- 服务质量(QoS)方面,网络中断可能给系统引入额外的故障点。
- 带宽消耗方面,发送警报比流式传输音频或声学特征所需带宽更少。
- 隐私方面,将智能家居音频连续流式传输到云平台会引发严重隐私问题,而在设备上运行则可避免窃听。

3.3 将计算成本纳入评估

尽管存在计算约束,大多数研究工作在进行 AER 性能评估时对计算成本关注有限。忽略计算成本的方法可能在实际应用中遇到障碍,因此在研究层面评估 AER 算法时,应更严格地将计算成本纳入评估标准。

有研究通过评估 AER 准确性与计算成本的函数关系取得了平衡。研究比较了三种常用于 AER 的分类器:高斯混合模型(GMMs)、支持向量机(SVMs)和各种深度神经网络(DNNs)在两个 AER 任务(婴儿哭声检测和烟雾警报检测)中的性能与计算成本。结果表明:
- GMMs 在两个数据集上提供了低成本的分类基线,能在适度计算成本下表现良好。
- 线性和 S 形核的 SVMs 与 GMMs 的等错误率(EER)性能相似,但计算成本总体较高,其计算成本由支持向量数量决定。
- DNNs 在两个数据集上始终优于 GMMs 和 SVMs,其计算成本可通过限制隐藏单元数量和层数来控制,更深的网络表现更好,具有 ReLU 激活函数的神经网络性能良好,且适合部署在嵌入式设备上。

以下是不同分类器性能与计算成本的对比表格:
| 分类器 | 计算成本 | 性能表现 |
| ---- | ---- | ---- |
| GMMs | 适度 | 在适度计算成本下表现良好,提供低成本分类基线 |
| SVMs | 较高 | 与 GMMs EER 性能相似,但总体计算成本高,由支持向量数量决定 |
| DNNs | 可控制 | 始终优于 GMMs 和 SVMs,计算成本可通过限制隐藏单元和层数控制 |

下面是考虑云计算时的决策流程图:

graph LR
    A[AESR 应用] --> B{是否使用云计算}
    B -->|是| C[存在延迟问题]
    B -->|是| D[存在 QoS 问题]
    B -->|是| E[带宽消耗问题]
    B -->|是| F[隐私问题]
    B -->|否| G[在设备上运行]

4. 不同分类器性能分析

4.1 高斯混合模型(GMMs)

高斯混合模型在音频事件识别中有着独特的优势。它能够在相对较低的计算成本下,为分类任务提供一个基础的性能保障。从原理上来说,GMMs 假设数据是由多个高斯分布混合而成的,通过对这些高斯分布的参数进行估计,就可以对新的数据进行分类。

在婴儿哭声检测和烟雾警报检测这两个任务中,GMMs 展现出了一定的适应性。它不需要复杂的结构和大量的计算资源,就能够对音频数据进行有效的处理。这使得它在一些对计算资源要求不高的应用场景中,成为了一个不错的选择。

4.2 支持向量机(SVMs)

支持向量机是一种强大的分类工具,在线性和 S 形核的配置下,它与 GMMs 的等错误率(EER)性能相近。然而,SVMs 的计算成本相对较高,这主要是由其支持向量的数量决定的。

SVMs 属于非参数模型,不像 GMMs 可以直接指定模型参数。虽然可以通过正则化间接控制支持向量的数量,但这仍然需要一定的计算开销。不过,SVMs 在处理一些复杂的分类问题时,可能会表现出更好的性能。

4.3 深度神经网络(DNNs)

深度神经网络在音频事件识别领域表现出色,在婴儿哭声和烟雾警报检测数据集上始终优于 GMMs 和 SVMs。DNNs 可以通过多层的神经元结构,自动学习数据中的特征和模式,从而实现更准确的分类。

DNNs 的计算成本可以通过限制隐藏单元数量和层数来进行控制。实验结果显示,更深的网络通常表现更好,能够捕捉到更复杂的音频特征。同时,具有 ReLU 激活函数的神经网络在性能和计算效率之间取得了良好的平衡,适合部署在嵌入式设备上。

以下是三种分类器的特点总结列表:
- GMMs
- 计算成本适度。
- 提供低成本分类基线。
- 对数据进行高斯分布混合建模。
- SVMs
- 计算成本较高。
- EER 性能与 GMMs 相似。
- 非参数模型,通过支持向量进行分类。
- DNNs
- 计算成本可控制。
- 性能优于 GMMs 和 SVMs。
- 多层结构自动学习特征。

5. 总结与展望

5.1 研究成果总结

通过对音频事件识别在智能家居中的研究,我们取得了一些重要的成果。在音频事件建模方面,提出了将声音事件建模为中断的声学序列的新思路,有望整合瞬间声学建模和更广泛的时间与结构模型。在 24/7 连续声音识别作为开放集问题的研究中,引入了开放集识别的概念,并在图像识别和音频场景分类中取得了一定进展,同时指出了当前评估指标的局限性和初步解决方案。

在应对有限音频质量和计算能力方面,明确了通道鲁棒性的研究重要性,分析了不同类型物联网设备的计算约束,以及将计算成本纳入评估的必要性。通过对 GMMs、SVMs 和 DNNs 三种分类器的比较研究,了解了它们在不同计算成本下的性能表现。

5.2 未来研究方向

未来的研究可以从以下几个方面展开:
- 开放集识别的扩展 :将开放集方法更广泛地应用于音频事件识别,在更大的数据集上进行测试,并开发更多类型的开放集机器。
- 音频质量处理 :进一步研究针对低质量音频、复杂失真和噪声的鲁棒处理方法,推广远场音频增强方法到更广泛的声音类型。
- 计算成本优化 :探索更有效的方法来平衡 AER 算法的准确性和计算成本,开发适合嵌入式设备的高效算法。
- 多模态融合 :考虑将音频与其他传感器数据(如视觉、触觉等)进行融合,提高音频事件识别的准确性和可靠性。

以下是未来研究方向的表格:
| 研究方向 | 具体内容 |
| ---- | ---- |
| 开放集识别的扩展 | 应用于更多音频事件识别场景,在大数据集测试,开发新开放集机器 |
| 音频质量处理 | 研究鲁棒处理方法,推广远场音频增强方法 |
| 计算成本优化 | 平衡准确性和计算成本,开发高效嵌入式算法 |
| 多模态融合 | 融合音频与其他传感器数据 |

下面是未来研究方向的流程图:

graph LR
    A[未来研究] --> B[开放集识别扩展]
    A --> C[音频质量处理]
    A --> D[计算成本优化]
    A --> E[多模态融合]
    B --> B1[应用于更多场景]
    B --> B2[大数据集测试]
    B --> B3[开发新机器]
    C --> C1[研究鲁棒方法]
    C --> C2[推广增强方法]
    D --> D1[平衡成本与准确性]
    D --> D2[开发嵌入式算法]
    E --> E1[融合音频与视觉]
    E --> E2[融合音频与触觉]

通过不断的研究和创新,音频事件识别技术将在智能家居中发挥更大的作用,为人们提供更加智能、便捷和安全的生活环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值