数据样本重建与中文元音声调识别方法探索
1. 数据样本重建方法
在许多实际应用场景中,数据样本数量不足是一个常见的问题,尤其是在神经网络训练时,需要大量的数据来保证模型的准确性和稳定性。传统的蒙特卡罗方法在生成随机数据序列时存在一定的局限性,对于小概率数据的处理不够理想。而灰色系统理论中的GM(1,1)模型则可以有效地处理小概率数据,弥补蒙特卡罗方法的不足。
1.1 原始车辆声音样本处理
- Grubbs丢弃准则 :该准则用于从原始样本中分离出大概率数据和小概率数据。假设一组样本数据为 (N_1, N_2, \cdots, N_K),样本均值为 (N),样本标准差为 (\sigma = \sqrt{\frac{1}{K - 1}\sum_{i = 1}^{K}(N_i - N)^2})。首先找出偏离均值最大的数据 (N_e),计算 (g’ = \frac{|N_e - N|}{\sigma})。设定显著水平 (\alpha)(如0.05或0.01),查找不同 (K) 对应的 (g) 临界值。当 (g’) 大于临界值时,(N_e) 应被丢弃。重复此过程,直到所有数据正常,从而将样本数据分为小概率数据样本和大概率数据样本。
- 车辆声音样本数据处理 :研究4种类型的车辆声音,每种声音采样23次。选择7个本征系数来描述车辆类型,每个车辆类型的本征系数通过Grubbs丢弃准则分为大概率和小概率数据样本。由于每种车辆类型只有23组本征系数,数据量不足以进行神经网络训练,因此需要对两个样本进行扩充。
1.2 蒙特卡罗模拟
车辆
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



