环境声音分析的声学特征
1. 引言
声音信号的时域表示(波形)通常难以直接解读。多数情况下,仅通过波形很难识别甚至定位声音事件(除非它们处于不同的动态范围,例如安静环境中的响亮噪音),也难以区分不同的声音场景。因此,多年来,频域表示和时频域表示(包括多尺度表示)被广泛应用,这些表示方式更符合人类的感知。
然而,这些表示方式往往过于通用,常常无法描述声音记录中的特定内容。为了提取这些特定信息,人们投入了大量工作来设计各种特征,从而产生了各种各样的手工特征。但这类特征存在一个问题,即它们是为特定任务设计的,通常泛化能力较差,常常需要与其他特征结合使用,导致特征向量变得很大。
近年来,随着中大规模声音数据集的日益丰富,一种名为特征学习的特征提取方法逐渐流行起来,它已被证明在性能上可与大多数精心调整的手工特征相媲美。
无论是使用特征工程还是特征学习,处理当前大量的数据都可能变得十分困难。因此,能够在特征空间中减小数据集的规模至关重要,可以通过降低特征向量的维度或减少需要处理的特征向量数量来实现。
下面将介绍将声音信号转换为特征向量的一般处理流程,该特征向量可被分类器有效利用。同时,设计对扰动具有鲁棒性的特征也很关键,在后续相关部分会讨论在每个步骤中增强信号或提高鲁棒性的可能性。
2. 信号表示
多年来,人们致力于寻找合适的声音信号表示方法,以提取有用的信息。以下介绍几种主要的声音信号表示类别。
2.1 信号采集与预处理
一般来说,声音是振动通过空气或水等介质传播的波动。声音可以通过麦克风等电声换能器记录为电信号 $x(t)$,然后将该模拟信号转换为数字信号 $x
超级会员免费看
订阅专栏 解锁全文
989

被折叠的 条评论
为什么被折叠?



