计算生物声学场景分析:技术与挑战
1. 可视化与数据挖掘
在生物声学研究中,虽然全自动的声音场景分析方法备受关注,但利用计算来改进手动或半自动流程也具有重要价值。例如,在处理大量声音数据时,通过计算技术进行数据挖掘,能够帮助我们找到与特定研究问题相关的音频片段。
1.1 频谱图的应用
频谱图(在处理声音时也称为声谱图)是一种强大的计算技术,它极大地提升了声音的手动分析效率。许多生物声学研究人员经常会对频谱图进行视觉扫描和注释。在这个过程中,诸如叫声检测等程序可以为用户交互添加额外信息。尽管叫声检测理论上可以自动完成,但通常需要人工交互步骤来优化输出结果并纠正错误。像 Raven 或 SongScope 等软件就实现了这些工作流程。交互式分析不仅能用于纠错,还能在提出研究问题或了解声学环境时,成为探索音频数据的有效方式。
1.2 长时音频的可视化工具
许多生物声学项目会记录大量音频,这是因为使用了多个传感器且记录时间很长(例如数年)。使用传统的频谱图等可视化方法来浏览如此长时间的音频存在困难,因为在低缩放级别下,像叫声这样的细节可能会变得不可见。因此,设计专门用于长时或大量音频的工具和可视化方法非常有用。Towsey 等人开发了一种长时伪彩色频谱图方法。在这种时间 - 频率图中,每个像素不再仅仅表示特定时间和频率的能量,而是表示在该时间和频率测量的声学指数。使用的声学指数包括前面讨论过的 ACI 和 Df。如果某个像素所代表的时间段内有大量能量变化(这个时间段可能是一小时、一天或其他时长),它可能会显示得很亮。需要注意的是,在这种应用中,声学指数是针对每个频带分别计算的,而不是整体计算。这使得输出结果是一个二维图像,能够向用户传递大量信息,并且其频率轴对于大多数处理音频的人来说很容易解释。
2. 大规模分析技术
生物声学已经进入大数据时代,许多项目会从多个记录位置捕获数小时、数天甚至数月的音频。对这些录音的分析可能离线进行,但有时也需要实时处理,以便做出低延迟决策,例如决定保留哪些音频记录。此外,许多远程监测单元需要低功耗,以便能够长时间无人值守或由太阳能电池板供电。
2.1 算法复杂度与可扩展性
从可扩展性和实时适用性的角度考虑,我们可以通过算法的“复杂度”来评估其性能。在计算机科学中,“大 O” 符号用于总结算法的复杂度。例如,说一个算法的时间复杂度为 O(N²)(其中 N 可能是数据点的数量)意味着当 N 变得很大时,所需的计算时间趋于某个常数乘以 N²。如果一个算法的时间复杂度为 O(N²) 或更高,那么将其应用于大型数据集可能不可行。因此,通常会寻求时间复杂度较低的算法,如 O(N log N) 或 O(N)。对于训练好的机器学习方法,我们需要区分训练系统的复杂度和应用训练好的系统的复杂度,通常后者是主要关注点。不过,渐近复杂度并不总是实际可行性的完美指南,因为算法的实用性还取决于其计算所需的内存常数 k 的大小。
2.2 分类器和检测器
许多分类/检测方法是基于实例的,即算法会将查询数据与之前存储在内存中的一组数据项进行比较。简单的模板匹配方法就是如此,它会存储目标声音的模板。其他基于实例的方法包括 k 近邻和支持向量机(SVM)。对于模板匹配,互相关本身可以通过复杂度为 O(TK) 的“快速”算法实现,其中 T 是被搜索音频的持续时间,K 是要匹配的模板数量。假设音频模板有固定的最大持续时间,所需的内存为 O(K)。该方法可以实时运行,但在系统中通常是较重的计算任务之一,尤其是当 K 很大时。因此,它最适合用于检测少量刻板动物声音的应用,因为少量模板就足够了。对于更大的问题,可以通过使用少量样本而不是所有已知实例来修剪参考数据。还可以通过近似匹配方法(如局部敏感哈希(LSH))实现高效的大规模匹配,这种方法已用于音乐信息学中的基于相似度的音频检索。
动态时间规整(DTW)比较两个音频片段的复杂度为 O(T₁T₂),其中 Tᵢ 是音频持续时间。如果示例模板的持续时间有固定的最大持续时间(通常比被搜索的音频短得多),DTW 的形式复杂度与互相关一样,在被搜索音频的持续时间上是线性的。然而,在实践中,DTW 仍然比互相关需要更多的计算,这可能解释了为什么它在大规模分析中不常用。其他在概念上优于简单模板匹配的方法包括隐马尔可夫模型(HMM)、非负矩阵分解(NMF)和稀疏表示,但到目前为止,这些方法在生物声学监测中使用较少,可能是因为不熟悉,而且从经验来看,它们在大规模匹配中不太可能比互相关带来更大的收益,因此成本 - 效益比表明互相关是默认选择。
2.3 深度学习的可扩展性问题
深度学习正开始对生物声学产生影响,但它也存在可扩展性问题。现代深度神经网络(DNN)的强大之处部分在于使用大量数据集进行训练,这意味着训练系统所需的时间可能很长,即使使用 GPU 等硬件技术加速也是如此。不过,这并不影响应用训练好的 DNN 的计算复杂度,应用 DNN 通常包括一组固定的简单计算(如乘法和加法)。然而,训练好的 DNN 可能有很多层和大量参数,这仍然意味着使用 DNN 进行分类需要相对大量的计算。此外,DNN 在小数据集上训练时通常表现不佳,因此可能不适合检测/分类难以收集大量音频示例的声音。
神经网络通常以流式方式进行训练,即反复将它们暴露于多个小批量的示例中。这使得它们即使在内存较小的系统上也能在大型数据集上进行训练,并且意味着它们是可更新的,可以随时通过提供更多标记数据进行进一步训练。
2.4 低复杂度前端减少计算量
如果需要进行相对繁重的计算才能获得良好的性能,或者存储有限,那么提高可扩展性的一种方法是减少计算调用的次数。在生物声学调查中,经常会采用固定的记录时间表,例如每小时记录 5 分钟,这样可以将所需的存储/分析量减少 12 倍;或者使用能量检测等方法。在调查设计中,这些决策会与监测站的访问频率、结果传输频率以及电源供应能力等因素一起考虑。即使数据要收集的时间未知,也可以通过简单的“水库采样”算法获得固定大小的音频片段随机样本。
在检测 - 分类工作流程中,检测器的准确性对分类器的调用次数有很大影响。检测器前端可以是简单的基于能量的方法,也可以是更复杂的方法。Ross 和 Allen 的研究表明,使用简单的低复杂度检测器作为第一处理阶段,设置为拒绝静音但具有高召回率,然后使用更复杂的算法(如随机森林)来细化检测决策是可取的。
2.5 特征选择与计算复杂度
在选择用于表示音频数据的特征时,其可扩展性影响也需要考虑。对于模板匹配方法,基本表示通常是标准频谱图的某种变体,相对固定。用于生成频谱图的音频可能经过滤波或其他预处理,但在生物声学应用中,应谨慎使用滤波。
常见的做法是丢弃频谱图的某些频带,以专注于感兴趣的频率范围,这可以减少计算量,特别是在单物种研究中。或者,为了相对高效地处理大量频带,Ruiz 等人应用随机投影,这是一种简单的数学变换,将频带投影到低维表示中。这种方法与主成分分析(PCA)具有相同的降维优势,但不需要对数据集进行预分析。
各种方法可能不直接处理频谱图特征,而是需要将数据处理成更高级别的特征,这些特征可能开始具有一些语义解释。例如,时变频率的估计(如 F0 跟踪、音高跟踪或正弦建模)通常需要大量计算。Stowell 等人比较了从鸟鸣中提取频率和频率调制信息的四种不同特征类型,发现一些方法非常耗时,而最简单的方法(基于在频谱图的每一帧中选择具有峰值能量的频率)既高效又能满足要求。虽然对于详细分析,峰值选择可能无法产生最准确的频率轨迹,但对于大规模而非高分辨率分析,恢复的信息仍然有用。Podos 等人也对基于峰值选择的特征有类似的观察。
许多声学复杂度指数(ACI)是相对简单的计算,可以由系统实时执行。这使得它们适合用于长时频谱图,也可以作为可扩展的机器学习表征声音场景的特征。对于远程监测单元中的音频自动检测/分割,Colonna 等人特别关注计算具有极低内存和计算要求的特征,他们提出使用“指数遗忘”方法计算能量水平和过零率(ZCR),该方法通过新数据逐步更新之前记住的特征值。
特征学习在生物声学中也值得特别关注。与深度学习一样,特征学习通常受益于大量的训练数据,这会影响训练时间,但对部署训练好的系统的运行时间影响不大。通过球形 k - 均值进行无监督特征学习是一种从大型数据集中学习特征的高效技术,它可以找到适合数据特征的变换,已被证明能显著提高生物声学信号分类的性能。Kohlsdorf 等人将(标准非球形)k - 均值特征学习应用于频谱图的小片段,用于海豚发声分析。字典学习与特征学习密切相关,也已在生物声学监测中得到研究。
特征学习所学习的变换类似于神经网络一层的变换。深度学习的一个优势是将多层变换堆叠在一起,逐步变换数据以提取细节。Mallat 等人引入了一种不同的特征提取范式——散射变换,它不需要学习,但与 DNN 一样由多个堆叠的非线性变换层组成。散射特征具有一些数学性质,被认为可以捕获与自然声音分析相关的不变性,已被用于音频分析。与 DNN 或特征学习不同,散射特征不需要学习,因此即使在小数据集上也可以应用,已被用于大规模鸟类分类。
综上所述,在生物声学场景分析中,需要综合考虑可视化、大规模分析技术、特征选择等多个方面,以应对大数据时代的挑战,提高分析的效率和准确性。同时,还需要进一步探索和发展相关技术,以解决目前存在的一些问题,如远程监测的鲁棒性、个体动物识别、生态声学评估等。
相关技术对比表格
| 技术名称 | 复杂度 | 适用场景 | 优点 | 缺点 |
|---|---|---|---|---|
| 模板匹配 | O(TK) | 检测少量刻板动物声音 | 可实时运行,内存需求低 | 大规模问题计算量大 |
| 动态时间规整(DTW) | O(T₁T₂) | 音频片段比较 | 理论复杂度与互相关类似 | 实际计算量重,不常用于大规模分析 |
| 深度神经网络(DNN) | 训练时间长,应用复杂度取决于参数数量 | 大数据集分类 | 强大的特征提取能力 | 训练时间长,小数据集表现不佳 |
| 随机投影 | 相对较低 | 处理大量频带 | 降维高效,无需预分析数据集 | |
| 散射变换 | 无需训练 | 大规模鸟类分类等 | 无需学习,可用于小数据集 |
检测 - 分类工作流程 mermaid 流程图
graph LR
A[音频数据] --> B[低复杂度检测器]
B --> C{是否为静音}
C -- 是 --> D[丢弃]
C -- 否 --> E[复杂算法细化检测]
E --> F[分类器]
F --> G[分类结果]
3. 研究展望与待解决问题
生物声学领域在过去几十年里已经取得了显著进展,但仍然存在许多有待解决的问题和需要进一步探索的方向。这些问题涉及从基础研究到实际应用的多个层面,解决这些问题将有助于推动生物声学的发展,使其更好地服务于生态保护、动物行为研究等领域。
3.1 远程监测面临的挑战
在远程监测方面,存在一些实际问题亟待解决。首先是声学检测和分类的天气鲁棒性问题。不同的天气条件,如降雨、大风等,会对声音传播和采集产生影响,从而干扰检测和分类的准确性。目前的方法在不同天气条件下的性能稳定性较差,需要开发能够适应各种天气环境的算法和技术。
其次是在新环境中的泛化能力。当监测设备被部署到新的地理区域或生态环境时,现有的检测和分类模型可能无法准确识别当地的声音。这就要求模型能够在不进行大量手动重新调整的情况下,适应新环境中的声音特征。此外,在单麦克风或临时麦克风设置中,可靠地估计声音源的位置和距离也是一个难题。准确的位置和距离信息对于了解动物的活动范围、群体分布等具有重要意义,但目前的技术在这方面还存在较大的提升空间。
3.2 个体动物识别难题
从个体动物的发声中识别其身份是生物声学领域的一个重要但困难的任务。不同个体的声音可能会受到多种因素的影响,如年龄、性别、健康状况等,而且背景声音的干扰也会增加识别的难度。此外,动物的发声模式可能会随着时间和环境的变化而改变,这使得建立稳定的个体识别模型变得更加复杂。解决这个问题对于研究动物的社会行为、个体健康状况等具有重要意义,需要开发更加先进的算法和技术,以克服背景声音和发声模式变化带来的干扰。
3.3 生态声学评估的不确定性
生态声学的一个核心问题是如何利用声景的声学测量来估计生态系统的健康状况和生物多样性。目前,虽然已经进行了一些相对简单的测量研究,但对于生态系统的复杂结构和动态变化,这些测量方法还远远不够。未来的研究可以探索如何利用源分离技术,将不同动物的声音从混合声景中分离出来,以便更准确地分析每个物种的存在和活动情况。
此外,无监督聚类声学元素可以帮助发现声景中的潜在模式和群体结构,从而为生态系统的评估提供更全面的信息。深度学习作为一种强大的数据分析工具,也可以在生态声学评估中发挥重要作用。通过训练深度神经网络,可以学习声景中的复杂特征和模式,从而实现对生态系统健康和多样性的更准确估计。
3.4 可扩展方法的需求
随着生物声学数据量的不断增长,可扩展方法变得越来越重要。深度学习虽然在处理大数据方面具有一定的优势,但在高可扩展性和实时处理方面还存在一些问题。因此,需要开发更加高效的特征提取算法,以满足大规模数据处理的需求。
例如,散射变换作为一种无需训练的特征提取方法,具有与无监督卷积神经网络分析相似的特点,已被应用于鸟类分类等领域。球形 k - 均值特征学习基于简单的可流式算法,可以看作是一种简单的单层无监督卷积神经网络训练,也在生物声学信号分类中显示出了良好的性能。这些方法为解决生物声学中的可扩展性问题提供了新的思路和途径。
3.5 小规模分析的重要性
尽管大规模分析在生物声学研究中具有重要意义,但小规模分析同样不可忽视。在许多情况下,对单个案例的精细分析可以提供深入的洞察和理解。例如,对于稀有或难以观察的动物物种,可能只有少量的数据可用,这时就需要对这些有限的数据进行细致的分析,以揭示动物的行为模式和生态特征。
此外,在研究动物的特定行为或生理状态时,小规模分析可以帮助我们捕捉到细微的变化和差异。因此,在生物声学研究中,需要平衡大规模分析和小规模分析的应用,根据具体的研究问题和数据情况选择合适的分析方法。
3.6 多动物交互的模型分析
多动物之间的交互行为是生物声学研究的一个重要领域,但目前对这方面的计算模型分析还相对较少。许多关于动物交互行为的知识仍然是定性的,难以直接编码到计算模型中。未来的研究需要开发更加完善的模型,以描述和分析多动物之间的交互行为。
通过建立这些模型,可以更好地理解动物社会网络的结构和动态,以及它们在生态系统中的作用。例如,通过分析黎明合唱中的声音模式,可以推断出鸟类之间的社会关系和交流方式。这种模型分析不仅有助于深入了解动物行为,还可以为生态保护和管理提供科学依据。
待解决问题总结列表
- 远程监测的天气鲁棒性和新环境泛化能力。
- 个体动物从发声中准确识别的方法。
- 生态声学中利用声学测量准确评估生态系统健康和多样性的技术。
- 高可扩展性和实时处理的高效特征提取算法。
- 小规模数据的精细分析方法。
- 多动物交互行为的计算模型开发。
生态声学评估技术发展 mermaid 流程图
graph LR
A[现有简单测量] --> B[源分离技术]
A --> C[无监督聚类声学元素]
A --> D[深度学习应用]
B --> E[更准确的物种活动分析]
C --> F[发现声景潜在模式]
D --> G[更准确的生态系统评估]
E --> H[综合生态声学评估]
F --> H
G --> H
在生物声学的未来发展中,需要综合运用各种技术和方法,不断探索和创新,以解决当前面临的挑战和问题。通过提高分析的效率和准确性,我们可以更好地理解生物声学场景,为生态保护、动物行为研究等领域提供更有力的支持。同时,要注重小规模分析和大规模分析的结合,以及多学科的交叉融合,推动生物声学研究不断向前发展。
超级会员免费看

被折叠的 条评论
为什么被折叠?



