声音事件识别技术全解析
1. 特征选择与提取
1.1 特征选择
理解并区分输入的相关和无关部分至关重要。减少用于建模的特征数量的问题被称为降维。当处理大量变量时,降维尤为必要,因为特征选择可以显著提高学习算法的性能。
从数学角度来看,给定一组特征 (F = {f_1, f_2, \cdots, f_n}),特征选择问题就是找到一个子集,使学习者对模式进行分类的能力最大化。形式上,这个子集 (F’) 应使某个评分函数最大化。
所需样本数量(以达到相同的准确性)会随着变量数量呈指数增长。对于大量特征,分类器的性能通常会下降。在许多情况下,通过在低维空间中进行更准确的映射或采样,可以弥补丢弃变量所损失的信息。
在理论上,目标是找到最优特征子集(即最大化评分函数的子集)。但在实际应用中,通常无法做到这一点。对于大多数问题,搜索所有可能的特征子集在计算上是不可行的,因此通常只能采用最优子集的近似解。该领域的大部分研究都致力于寻找高效的搜索启发式方法。
1.2 特征提取
在声音事件识别(SER)中,可以使用多种特征。除了基于时间的特征外,其他特征都体现了声音所涉及能量的特定特征。以下是一些常用的特征:
1. 时域特征 :直接从信号的时域表示中导出,包括波形的最小值和最大值、短时能量和过零率。
2. 频域特征 :直接从频谱的功率值中提取,常见的有基频、音高比、频谱矩、频谱平坦度、频谱滚降、频谱质心和带宽。
3. 倒谱域特征 :
- 梅尔频
超级会员免费看
订阅专栏 解锁全文
1185

被折叠的 条评论
为什么被折叠?



