26、端到端短语音说话人验证与多类不平衡大数据分类综合分析

端到端短语音说话人验证与多类不平衡大数据分类综合分析

端到端短语音说话人验证

在说话人验证领域,不同模型有着不同的表现。以下是各种模型的对比:
| 论文 | 模型 | 特征提取 | 数据集 | 错误率(%) |
| — | — | — | — | — |
| Paper [9] | GMM - UBM | 频谱图 | VoxCeleb1 | 15.0 |
| Paper [9] | VGG | 频谱图 | VoxCeleb1 | 7.80 |
| Paper [5] | GMM - UBM + i - vector | MFCC | NIST’08 | 16.62 |
| Paper [12] | RACNN - LSTM | RAWNET | VoxCeleb1 | 4.80 |
| Paper [1] | CNN - GRU | RAWNET | VoxCeleb2 | 3.52 |

从表格可以看出,以原始波形作为输入且采用 CNN - GRU 架构的模型在说话人验证系统中表现更佳。因此,我们提出开发一个使用原始波形的端到端说话人验证系统,尤其针对短语音的原始波形。

提出的系统

在对现有模型进行全面的文献调研后,我们考虑采用具有 CNN - GRU 前端架构的端到端系统。该系统以原始波形为输入,为语音生成说话人嵌入,随后进行分析。
- 原始波形 :在语音验证系统中,传统模型通常使用 MFCC 和频谱图等中间特征作为输入。然而,由于滤波器组类型和幅度压缩的限制,输入的频谱信息有限,这会影响模型架构。为解决此问题,基于波形的 CNN 被用于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值