声纹-End-to-End Voiceprint

本文介绍了声纹识别的基本概念及技术发展,包括传统的ivector系统及其局限性,以及近年来出现的端到端声纹识别方法,如使用RNN、DNN和triplet loss等技术。同时探讨了当前声纹系统面临的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载至:https://zhuanlan.zhihu.com/p/24425179?refer=codingmath

Voiceprint

所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。-- From 互动百科

ivector Voiceprint

ivector[1] 统治 speaker identification/verification/recognition 多年[2],引入 DNN 的声纹系统[2, 3, 4, 5] 大多没有摆脱 ivector 的框架,好似当年 hybrid DNN-HMM。

近年 CTC End-to-End ASR [6, 7] 方法兴起,声纹领域也有 End-to-End 的工作 [8, 9, 10, 16].

speaker identification/verification/recognition 三个任务大同小异,核心都是计算两段音频来自相同 speaker 的 probability。

ivector 使用 generative model GMM-UBM ,没有对 cosine similarity / PLDA 做 discriminative training,也即是没有 End-to-End 地优化整个系统。通常来说 discriminative model 的准确性要高于 generative model。引入discriminative training [11],ivector 系统会有提升。

End-to-End Voiceprint

[8] End-to-end text-dependent speaker verification 文本相关说话人验证,使用RNN提取声纹信息,对接 cosine + logistic regression,端到端优化整个模型。

[9] DEEP NEURAL NETWORK-BASED SPEAKER EMBEDDINGS FOR END-TO-END SPEAKER VERIFICATION 是文本无关的端到端声纹系统,通过设计Loss Function对接 logistic regression 来传递上层导数。

[10] TristouNet: Triplet Loss for Speaker Turn Embedding 文本无关的声纹提取系统,使用BiRNN 模型提取 triplet,优化目标是扩大不同 speaker 声纹特征的分离度、内聚相同 speaker 声纹特征,效果提升明显。代码开源地址 hbredin/TristouNet 。triplet 借鉴于 face recognition/clustering [13, 14]。近年语音界开始借鉴 图像/视觉,再如[15]。

声纹系统需要解决的问题:

  • enroll / test duration mismatch;
  • enroll / test environment mismatch;
  • portable system;
  • robust 双刃剑[12];PS: 所见过的指纹机经常报“请再按一次”“请再按一次”“请再按一次”“请再按一次”
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值