短语音端到端说话人验证与多类不平衡大数据分类综合分析
在当今的科技领域,说话人验证和大数据分类都是备受关注的研究方向。短语音端到端说话人验证旨在准确识别短语音片段中的说话人身份,而多类不平衡大数据分类则致力于解决现实中大量存在的数据集不平衡问题。本文将详细介绍这两个领域的相关研究,探讨其技术细节、实验结果以及面临的挑战与解决方案。
短语音端到端说话人验证
- 不同模型对比
| 论文 | 模型 | 特征提取 | 数据集 | 错误率(%) |
| ---- | ---- | ---- | ---- | ---- |
| Paper [9] | GMM - UBM | 频谱图 | VoxCeleb1 | 15.0 |
| Paper [9] | VGG | 频谱图 | VoxCeleb1 | 7.80 |
| Paper [5] | GMM - UBM + i - vector | MFCC | NIST’08 | 16.62 |
| Paper [12] | RACNN - LSTM | RAWNET | VoxCeleb1 | 4.80 |
| Paper [1] | CNN - GRU | RAWNET | VoxCeleb2 | 3.52 |
从表格中可以看出,以原始波形作为输入以及采用CNN - GRU架构的模型在说话人验证系统中表现更优。
-
系统架构
- 原始波形 :传统语音验证系统常使用MF
超级会员免费看
订阅专栏 解锁全文
1204

被折叠的 条评论
为什么被折叠?



