连续声纹识别 && 实时说话人分离

最新推荐文章于 2025-05-12 08:00:00 发布

码匀

最新推荐文章于 2025-05-12 08:00:00 发布

阅读量5.5k

点赞数

分类专栏：语音识别（声纹识别）文章标签：声纹识别说话人分割聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43198122/article/details/124366234

版权

语音识别（声纹识别）专栏收录该内容

23 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了离线和在线说话人分离的方法，包括连续声纹识别和模型预热策略。离线分离通过VAD切分、特征提取和聚类实现，而在线分离则面临实时性的挑战，提出了连续声纹识别和模型预热解决方案，以实现实时录音识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言

根据前面的文章我们已经可以做出一个可用性较强的声纹识别系统了，但声纹识别的应用不仅限于声纹确认和声纹搜索中，例如我们今天说的说话人分离（也叫说话人分割聚类）也需要用到声纹模型。而说话人分离又分为在线说话人分离和离线说话人分离。

离线说话人分离

目前对包含多说话人并且语音不交叠的音频的离线说话人分离较为简单，简单说一下思路：

首先对原始音频应用VAD进行切分（对于大部分语音都能完成较好的切分，VAD如果有自己的模型可以使用自己的，如果没有建议使用webrtcvad，虽然其对噪音的过滤不是很好）。
经过切分的音频有条件还可以再次使用说话人改变点模型进行再次切分（当然这一步目前来说可有可无）。
将得到的切分音频一个个提取特征（根据之前声纹模型提取的特征来，例如Fbank）送入之前的声纹模型得到切分音频的声纹嵌入码。
直接使用声纹嵌入码进行聚类即可（聚类可使用Kmeans、谱聚类等）。当然这种聚类方法还是需要指定说话人的数量（即聚类的类别数）。

经过上面的步骤我们往往可以得到一个这样的结果：

[0, 1, 1, 2, 2, 1, 0, 1, 2]

上面的每个数字

了解本专栏

超级会员免费看

博客等级

码龄7年

142
原创

306
点赞

1218
收藏

2616
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: LeetCode 287.寻找重复的数

下一篇：: LeetCode 131-132 分割回文串

最新评论

fastapi 将 http服务升级为https
打怪升级的小余: 其他设备无法访问本机的接口
声音分类及其实战（二）
YiHu_Fudan: 谢谢，我找了代码，# 示例调用 path_class 函数 filename = '100652-3-0-1.wav' path_name, class_name = path_class(data, filename) # 打印 path_name print("Path Name:", path_name) 有输出： Path Name: ../Dataset/UrbanSound8K/audio\fold2\100652-3-0-1.wav Class Name: dog_bark 但执行，下面的mfcc特征提取和label标签，还是出现错误：Error encountered while parsing file: 100032-3-0-0.wav Error encountered while parsing file: 100263-2-0-117.wav Error encountered while parsing file: 100263-2-0-121.wav Error encountered while parsing file: 100263-2-0-126.wav Error encountered while parsing file: 100263-2-0-137.wav... 请问会不会是librosa库的问题？我的是0.10.2，谢谢
声音分类及其实战（二）
码匀: 你得在函数下面打印啊，第一行怎么打印，可以问下gpt，这太基础了
声音分类及其实战（二）
YiHu_Fudan: 谢谢，我试着用print("path_name =", path_name)，但显示：--------------------------------------------------------------------------- NameError Traceback (most recent call last) Cell In[56], line 1 ----> 1 print("path_name =", path_name) NameError: name 'path_name' is not defined
声音分类及其实战（二）
YiHu_Fudan: 谢谢，我试着用print("path_name =", path_name)，但显示：--------------------------------------------------------------------------- NameError Traceback (most recent call last) Cell In[56], line 1 ----> 1 print("path_name =", path_name) NameError: name 'path_name' is not defined，确实是新手，请多多指教，感谢感谢

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码匀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。