46、智慧城市中的声音分析:技术与挑战

智慧城市中的声音分析:技术与挑战

1. 特征学习优势

特征学习相较于现成的工程特征具有显著优势,即便采用如SKM这样简单浅层的特征学习方法,也能带来明显的性能提升。这种提升为特征学习的优越性提供了有力证据。

2. 通过卷积实现平移不变性

SKM - scattering方法采用了散射变换作为不同的输入表示。散射变换可视为梅尔频谱图的扩展,它通过小波卷积和模运算级联计算多阶调制频谱系数。
- 一阶散射系数计算
给定信号$x$,一阶散射系数通过将$x$与小波滤波器组$\psi_1$卷积,取模,再与大小为$T$的低通滤波器$\phi(t)$卷积以进行时间平均来计算,公式为$S_1x(t; \psi_1) = |x * \psi_1| * \phi(t)$。当$Q_1 = 8$时,该滤波器组的频率分辨率与梅尔滤波器组相同,此层近似等同于梅尔频谱图。
- 二阶散射系数计算
二阶系数捕获第一层各频段出现的高频幅度调制,通过$S_2x(t; \psi_1, \psi_2) = ||x * \psi_1| * \psi_2| * \phi(t)$计算。在相关研究中,$Q_1 = 8$,$Q_2 = 1$,滤波器组由一维Morlet小波构成,$T$设为与用于字典学习的二维梅尔频谱图块相同的持续时间(如采样率为44100 Hz时,$T = 1024 * 16$,对应370 ms)。虽然可以通过迭代此过程获得更高阶系数,但研究表明,对于所选的$T$值,大部分信号能量由一阶和二阶系数捕获。
- 后续处理流程
对于每一帧,将一阶系数与所有二阶系数连接成单个特征向量,二阶系数使用前一阶系数进行归一化。后续过程包括PCA白化、使用SKM进行字典学习、投影到特征空间、总结和分类(此处使用支持向量机,与随机森林的差异极小)。与其他方法的主要区别在于增加了一个相位不变卷积层,能够以时间平移不变的方式捕获输入表示中的幅度调制。

方法 输入表示 主要特点 分类准确率
SKM - scattering 散射变换 增加相位不变卷积层,捕获幅度调制 0.75
SKM - mel 梅尔频谱图 - 0.74

从分类准确率来看,从散射系数学习字典相较于梅尔频谱图仅带来相对较小的提升(0.75 vs 0.74)。但值得注意的是,对于被标注为声学场景背景的掩蔽声音,分类准确率有5个百分点的绝对提升。这与声音感知和认知文献中的发现相符,即调制在声音分离和听觉图像形成中起着重要作用,进一步推动了对如散射变换等深度卷积表示在机器听觉中的探索。此外,散射变换对局部时间平移的固有不变性使得SKM - scattering和SKM - mel性能相当,但前者使用的字典小一个数量级($k = 200$ 对 $k = 2000$),同时训练所需的二维样本数量也减少了一个数量级。这意味着平移不变性能够用更少的数据训练出同样强大的小型模型,为深度卷积方法的进一步探索提供了动力。

graph LR
    A[信号x] --> B[与小波滤波器组ψ1卷积]
    B --> C[取模]
    C --> D[与低通滤波器φ(t)卷积]
    D --> E[一阶散射系数S1x(t; ψ1)]
    E --> F[与小波滤波器组ψ2卷积]
    F --> G[取模]
    G --> H[与低通滤波器φ(t)卷积]
    H --> I[二阶散射系数S2x(t; ψ1, ψ2)]
    I --> J[连接一阶和二阶系数]
    J --> K[PCA白化]
    K --> L[SKM字典学习]
    L --> M[投影到特征空间]
    M --> N[总结和分类]
3. 深度学习与数据增强

Piczak - CNN和SB - CNN基于深度学习。与上述方法不同,它们具有多个特征学习层,包括全连接层和卷积层,特征学习与分类器完全集成,并且使用监督方法和判别目标进行训练。
- SB - CNN模型
SB - CNN以具有128个频段、持续时间为3 s的对数缩放梅尔频谱图作为网络输入,每个3 s的频谱图“块”进行Z分数归一化。模型由三个卷积层和两个池化操作交错组成,随后是两个全连接(密集)层。值得注意的是,SB - CNN的卷积层使用相对较小的感受野($5\times5$),相较于输入维度($128\times128$),旨在让网络学习小的局部模式或线索,即使在存在干扰源的频谱 - 时间掩蔽情况下,也能逐步积累特定源存在或不存在的证据。
- 训练过程
在训练过程中,模型通过小批量随机梯度下降优化交叉熵损失。每个批次由从训练数据中随机选择的100个块组成(无重复)。模型使用恒定学习率0.01进行训练,对最后两层的输入应用概率为0.5的Dropout,对最后两层的权重应用惩罚因子为0.001的L2正则化。模型训练50个周期,使用验证集确定实现最高分类准确率的参数设置(周期)。预测时,将测试样本切片成重叠块,对每个块进行预测,最后选择所有块上平均输出激活最高的类别作为样本级预测。
- 数据增强
尽管SB - CNN优于基线,但在原始UrbanSound8K数据集上训练时,并未超过其“浅层”的SKM对应模型。这表明该数据集虽然是城市声音分类领域最大的公开数据集,但对于高容量深度学习模型的优势展现来说仍不够大。为解决这一限制并提高模型对类内方差的鲁棒性,研究人员对SB - CNN进行了数据增强训练。具体应用了四种音频变形:时间拉伸、音高移动、动态范围压缩和添加不同信噪比的背景噪声,使用MUDA库进行增强,使训练集比原始UrbanSound8K大一个数量级。训练后,SB - CNN(增强后)显著优于SKM方法。而且,这种改进与深度学习的使用密切相关,对SKM方法进行数据增强训练并未取得同样程度的提升,增加SKM模型的字典大小(从$k = 2000$到$k = 4000$)即使在增强训练集上也未带来进一步改善。相反,增强训练集与深度学习模型增加的容量和表示能力的结合,带来了最先进的性能。

4. 应用与挑战

在城市环境中,声音分析主要应用于音频监控和噪声监测,这些应用推动了无处不在的传感与机器听觉能力(如声音事件检测、分类、定位和跟踪)的新发展,有望提高城市居民的公共安全和生活质量。
- 声学传感器网络选择
在声学传感器网络方面,静态传感和移动传感各有优劣。对于噪声监测,精确的源定位和跟踪并非必需,噪声模式的周期性和季节性意味着可以通过利用与其他数据类型(如交通、分区、夜生活、建筑和旅游活动等信息)的空间相关性来估计非网络响应,因此静态传感是一个不错的选择,并且有低成本、高质量的解决方案。然而,音频监控需要相对密集的传感器阵列,对于静态传感器网络来说成本过高,即使是低成本解决方案也难以承受。虽然可以针对特定应用(如高枪支犯罪率社区的枪声检测)进行选择性密集部署,但对于空间上较难预测的监控场景(如紧急情况或恐怖主义)并不适用。未来的发展可能需要利用智能手机和其他消费级移动设备进行传感,这就需要为声学数据找到在飞行中校准、同步和嵌入式计算的可靠解决方案。
- 声音事件检测与分类挑战
声音事件检测和分类虽然取得了有希望的结果且在短期内有了很大改进,但仍有很大的提升空间和重要挑战。城市声音分析的挑战之一是声源类型的异质性,大容量模型和集成方法可能对此有益,这在声学场景分类和生物声学分类中已得到证明。然而,当前标注的数据集较小,仅包含数百种可能声源中的一小部分,且标注较弱,全面的多源标注较为罕见,这阻碍了对这些解决方案的测试。此外,实际应用需要处理连续音频流,但许多讨论的数据集仅包含片段,无法表征城市声景的复杂时间动态。这就需要利用更长的时间关系,将卷积和循环模型结合是未来研究的一个有吸引力的方向。最后,这些数据集只包含城市户外环境中可能遇到的全部声学条件的小而随意的样本,系统需要对这些条件进行泛化。虽然数据增强在一定程度上有帮助,但未来的发展依赖于大规模声学传感器网络(无论是移动还是固定)的大量数据收集。一些令人鼓舞的进展包括最近推出的YouTube - 8M带标签视频数据集,其中包含来自移动设备的大量多样的城市声学环境样本,以及各种智慧城市倡议(如SONYC)正在部署的音频传感器网络。

智慧城市中的声音分析:技术与挑战

5. 声学传感器网络的选择考量

在智慧城市的声音分析应用里,声学传感器网络的选择至关重要,它直接影响到应用的效果和成本。下面为大家详细分析静态传感和移动传感在不同应用场景下的特点。

传感类型 应用场景 优势 劣势
静态传感 噪声监测 可利用空间相关性估计非网络响应,有低成本、高质量解决方案 音频监控时需密集阵列,成本高,难以应对复杂场景
移动传感 音频监控(复杂场景) 可灵活部署,适应不同空间情况 需解决校准、同步和嵌入式计算问题

在噪声监测场景中,静态传感展现出了一定的优势。由于噪声模式具有周期性和季节性,我们可以通过分析与其他数据类型(如交通流量、城市分区规划、夜生活活跃度、建筑施工进度以及旅游活动规模等)的空间相关性,来估计非网络响应。例如,在一个特定的城市区域,我们可以根据该区域的交通流量数据和以往的噪声监测记录,预测在交通高峰期可能出现的噪声水平。而且,目前已经有一些低成本、高质量的静态传感解决方案可供选择,能够满足噪声监测的基本需求。

然而,在音频监控场景下,静态传感就面临着较大的挑战。音频监控通常需要相对密集的传感器阵列,以确保能够准确地捕捉到各种声音事件。但对于静态传感器网络来说,部署这样密集的阵列成本过高,即使是一些低成本的解决方案,在大规模应用时也难以承受。虽然在某些特定的应用场景中,如高枪支犯罪率社区的枪声检测,可以进行选择性的密集部署,但对于那些空间上较难预测的监控场景,如紧急情况或恐怖主义事件,静态传感就显得力不从心了。

相比之下,移动传感在这些复杂的监控场景中具有一定的灵活性。智能手机和其他消费级移动设备可以作为移动传感器,在城市中广泛分布,能够实时地收集声音数据。但要实现有效的移动传感,还需要解决一系列技术问题。例如,在飞行中校准传感器,确保不同设备之间的测量准确性一致;同步各个设备的数据,以便进行统一的分析;以及在嵌入式计算方面,要保证设备能够高效地处理和传输声音数据。

graph LR
    A[噪声监测] --> B{选择传感类型}
    B --> C[静态传感]
    B --> D[移动传感]
    C --> E[利用空间相关性估计非网络响应]
    C --> F[低成本、高质量解决方案]
    D --> G[灵活部署适应复杂场景]
    D --> H[解决校准、同步和计算问题]
    I[音频监控] --> B
6. 声音事件检测与分类的未来方向

声音事件检测和分类是智慧城市声音分析的核心任务,但目前仍然面临着诸多挑战,下面我们来探讨一下未来的发展方向。

6.1 应对声源异质性

城市中的声源类型极其复杂多样,这给声音事件检测和分类带来了很大的困难。大容量模型和集成方法可能是解决这一问题的有效途径。大容量模型具有更强的学习能力,能够处理复杂的声源特征;集成方法则可以结合多个模型的优势,提高分类的准确性。例如,在声学场景分类和生物声学分类中,已经证明了这些方法的有效性。但目前面临的一个问题是,当前标注的数据集较小,仅包含了数百种可能声源中的一小部分,而且标注较弱,全面的多源标注较为罕见。这就导致我们难以对大容量模型和集成方法进行充分的测试和优化。未来,我们需要收集更多、更全面的标注数据,以支持这些方法的发展。

6.2 处理连续音频流

实际的声音分析应用通常需要处理连续的音频流,但现有的许多数据集仅包含音频片段,无法反映城市声景的复杂时间动态。为了更好地处理连续音频流,我们需要利用更长的时间关系。将卷积和循环模型结合是一个有吸引力的研究方向。卷积模型可以提取音频的局部特征,而循环模型则擅长处理序列数据,能够捕捉音频中的时间依赖关系。通过将两者结合,我们可以更准确地分析连续音频流中的声音事件。

6.3 数据泛化与收集

现有的数据集只包含了城市户外环境中可能遇到的全部声学条件的小而随意的样本,系统需要对这些条件进行泛化。虽然数据增强可以在一定程度上提高模型的泛化能力,但要实现真正的泛化,还需要大规模声学传感器网络的大量数据收集。无论是移动传感器网络还是固定传感器网络,都可以为我们提供更丰富的声学数据。一些令人鼓舞的进展已经出现,比如最近推出的YouTube - 8M带标签视频数据集,其中包含了来自移动设备的大量多样的城市声学环境样本;还有各种智慧城市倡议(如SONYC)正在部署的音频传感器网络,这些都为我们收集更多的数据提供了可能。

7. 总结

智慧城市中的声音分析在音频监控和噪声监测等应用中具有巨大的潜力,能够为城市居民的公共安全和生活质量带来显著的提升。通过特征学习、卷积实现平移不变性、深度学习与数据增强等技术,我们在声音事件检测和分类方面取得了一定的进展。然而,我们也面临着声学传感器网络选择、声源异质性、连续音频流处理以及数据泛化等诸多挑战。未来,我们需要进一步探索深度卷积方法,结合卷积和循环模型,利用大规模声学传感器网络收集更多数据,以克服这些挑战,推动智慧城市声音分析技术的不断发展。

总之,智慧城市中的声音分析是一个充满机遇和挑战的领域,我们需要不断地探索和创新,以实现更智能、更高效的城市声音管理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值