声纹识别概述（3）声纹识别系统

最新推荐文章于 2025-09-10 21:10:05 发布

原创

最新推荐文章于 2025-09-10 21:10:05 发布 · 7.2k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章目录

1. 声纹识别系统框架
2. 应用

1. 声纹识别系统框架

1.0 声纹识别系统

目前常见的声纹识别有以下两种表达：
（个人不太直观和清楚，不仅“阶段”没有讲清楚，还容易混淆“模型”——实质上有三个阶段、至少连个“模型”的概念）

1.0.1 不太清晰的两个阶段：训练阶段和测试阶段

在这里插入图片描述上图这种系统框架图并没有直观地反应出测试阶段的两种情况：注册和验证

或者这种：
在这里插入图片描述也没有具体细化。

1.0.2 只讲了一个阶段：测试/应用阶段（包括注册和验证）

在这里插入图片描述
上图这种方式又很容易让人忽视一个前提：声纹建模模型是已知的，或者说已经经过了模型训练阶段。

1.0.3 声纹识别系统的三个阶段

个人认为比较合理的说话人识别系统框架：

实际上，声纹识别系统有三个阶段：

训练阶段（training）：训练特征提取模型（声纹编码器模型）
注册阶段（enrollment）：录入底库数据（形成所谓的“说话人模型”，每个人都有一个）
在这个阶段，每个说话人每一条音频都会形成一个声纹模型，最后对所有模型进行聚合（比如取平均等），最终形成这个说话人的说话人模型
测试/评估阶段（evaluation）：读入测试数据，进行识别（相似度匹配）

The speaker verification, in general, consists of three stages: Training, enrollment, and evaluation. In training, the universal background model is trained using the gallery of speakers. In enrollment, based on the created background model, the new speakers will be enrolled in creating the speak

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。