声纹-End-to-End Voiceprint

最新推荐文章于 2024-04-16 09:31:22 发布

晴空001

最新推荐文章于 2024-04-16 09:31:22 发布

阅读量2.1k

点赞数 2

分类专栏：声纹文章标签：声纹识别

声纹专栏收录该内容

1 篇文章

订阅专栏

本文介绍了声纹识别的基本概念及技术发展，包括传统的ivector系统及其局限性，以及近年来出现的端到端声纹识别方法，如使用RNN、DNN和triplet loss等技术。同时探讨了当前声纹系统面临的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载至：https://zhuanlan.zhihu.com/p/24425179?refer=codingmath

Voiceprint

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。-- From 互动百科

ivector Voiceprint

ivector[1] 统治 speaker identification/verification/recognition 多年[2]，引入 DNN 的声纹系统[2, 3, 4, 5] 大多没有摆脱 ivector 的框架，好似当年 hybrid DNN-HMM。

近年 CTC End-to-End ASR [6, 7] 方法兴起，声纹领域也有 End-to-End 的工作 [8, 9, 10, 16].

speaker identification/verification/recognition 三个任务大同小异，核心都是计算两段音频来自相同 speaker 的 probability。

ivector 使用 generative model GMM-UBM ，没有对 cosine similarity / PLDA 做 discriminative training，也即是没有 End-to-End 地优化整个系统。通常来说 discriminative model 的准确性要高于 generative model。引入discriminative training [11]，ivector 系统会有提升。

End-to-End Voiceprint

[8] End-to-end text-dependent speaker verification 文本相关说话人验证，使用RNN提取声纹信息，对接 cosine + logistic regression，端到端优化整个模型。

[9] DEEP NEURAL NETWORK-BASED SPEAKER EMBEDDINGS FOR END-TO-END SPEAKER VERIFICATION 是文本无关的端到端声纹系统，通过设计Loss Function对接 logistic regression 来传递上层导数。

[10] TristouNet: Triplet Loss for Speaker Turn Embedding 文本无关的声纹提取系统，使用BiRNN 模型提取 triplet，优化目标是扩大不同 speaker 声纹特征的分离度、内聚相同 speaker 声纹特征，效果提升明显。代码开源地址 hbredin/TristouNet 。triplet 借鉴于 face recognition/clustering [13, 14]。近年语音界开始借鉴图像/视觉，再如[15]。

声纹系统需要解决的问题：