自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 funasr实现说话人识别

最开始使用speaker-diarization做的语音识别 因为最开始调研发现这个模型发布比较早并且能实现embeddind(语音矢量化) 和 segementation(语音分割) 但是后续发现配置参数的时候找不到最佳效果 也是踩了很多坑 总结一下代码。余弦相似度:余弦相似度是衡量两个向量在方向上的相似度,而不是它们的距离。欧式距离:通过计算两个人声音的特征向量之间的欧氏距离,你可以得出它们之间的相似性,距离越小表示声音越相似。我这里用的是2.1版本 生成的是一个512维向量数据。

2025-01-23 14:11:14 5736 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除