- 博客(1)
- 收藏
- 关注
原创 funasr实现说话人识别
最开始使用speaker-diarization做的语音识别 因为最开始调研发现这个模型发布比较早并且能实现embeddind(语音矢量化) 和 segementation(语音分割) 但是后续发现配置参数的时候找不到最佳效果 也是踩了很多坑 总结一下代码。余弦相似度:余弦相似度是衡量两个向量在方向上的相似度,而不是它们的距离。欧式距离:通过计算两个人声音的特征向量之间的欧氏距离,你可以得出它们之间的相似性,距离越小表示声音越相似。我这里用的是2.1版本 生成的是一个512维向量数据。
2025-01-23 14:11:14
5736
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅