富有表现力的语音语料库的客观与主观评估及线性和非线性预测残差信号在说话人识别中的应用
在语音处理和识别领域,对语音语料库的评估以及不同预测残差信号在说话人识别中的应用是重要的研究方向。下面将详细介绍相关的评估方法、实验设置、结果分析等内容。
富有表现力的语音语料库评估
-
客观评估
- 数据集与算法表现 :对十个测试数据集进行了识别率的评估。不同算法在不同数据集上表现各异。基于遗传算法(GA)的降维对系统有一定帮助,但与 Data1L 和 Data1LC 的差异较小。部分算法(如 J48、IB1 和 IBk)在经过两次连续降维(无二阶导数和后续 GA 降维)生成的数据集上表现更好。还有一些算法在去除 F0 和能量的线性/对数冗余时效果更佳。此外,增强版本的算法相比其对应算法显著提高了结果。
- 数据集影响 :Data1LC 与 Data1G 和 Data1L 取得了几乎相同的结果,但参数减少了一半以上。去除时序参数(Data1N 和 Data1NG)时,结果略有损失;仅在重读音节上计算参数(Data1LS 和 Data2LS)时,结果显著变差。
- 混淆矩阵 :Data2G 实现了最佳的平均识别率(97.02% ± 1.23),其平均混淆矩阵如下:
| | Agr | Hap | Sad | Neu | Sen |
| — | — | — | — | — | — |
| AGR | 99.1% | 0.8% | 0.1
语音语料库评估与残差信号在说话人识别中的应用
超级会员免费看
订阅专栏 解锁全文
584

被折叠的 条评论
为什么被折叠?



