自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_59472958的博客

原创 funasr实现说话人识别

最开始使用speaker-diarization做的语音识别因为最开始调研发现这个模型发布比较早并且能实现embeddind(语音矢量化) 和 segementation(语音分割) 但是后续发现配置参数的时候找不到最佳效果也是踩了很多坑总结一下代码。余弦相似度：余弦相似度是衡量两个向量在方向上的相似度，而不是它们的距离。欧式距离：通过计算两个人声音的特征向量之间的欧氏距离，你可以得出它们之间的相似性，距离越小表示声音越相似。我这里用的是2.1版本生成的是一个512维向量数据。

2025-01-23 14:11:14 5736 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_59472958

博客等级

码龄5年

1
原创

7
点赞

11
收藏

1
粉丝

关注

私信

热门文章

funasr实现说话人识别 5736

最新评论

funasr实现说话人识别
一帘风絮十里愁肠: 写得不清不楚的
funasr实现说话人识别
尘世闲游旅行者: 博主，我是直接在服务器上安装的FunASR服务，在docker中启动的，能否在启动命令里加一些参数来实现调用CAM++模型？
funasr实现说话人识别
qq_37259464: 有没有试过长音频，一个小时的音频，能正常分离吗？会不会出现一些不存在的分离人结果
funasr实现说话人识别
weixin_40111058: 后来语音向量模型换了吗？有没有更好的推荐一下

提示

确定要删除当前文章？

取消删除