转载至:https://zhuanlan.zhihu.com/p/24425179?refer=codingmath
Voiceprint
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。-- From 互动百科
ivector Voiceprint
ivector[1] 统治 speaker identification/verification/recognition 多年[2],引入 DNN 的声纹系统[2, 3, 4, 5] 大多没有摆脱 ivector 的框架,好似当年 hybrid DNN-HMM。近年 CTC End-to-End ASR [6, 7] 方法兴起,声纹领域也有 End-to-End 的工作 [8, 9, 10, 16].
speaker identification/verification/recognition 三个任务大同小异,核心都是计算两段音频来自相同 speaker 的 probability。
ivector 使用 generative model GMM-UBM ,没有对 cosine similarity / PLDA 做 discriminative training,也即是没有 End-to-End 地优化整个系统。通常来说 discriminative model 的准确性要高于 generative model。引入discriminative training [11],ivector 系统会有提升。
End-to-End Voiceprint
[8] End-to-end text-dependent speaker verification 文本相关说话人验证,使用RNN提取声纹信息,对接 cosine + logistic regression,端到端优化整个模型。
[9] DEEP NEURAL NETWORK-BASED SPEAKER EMBEDDINGS FOR END-TO-END SPEAKER VERIFICATION 是文本无关的端到端声纹系统,通过设计Loss Function对接 logistic regression 来传递上层导数。
[10] TristouNet: Triplet Loss for Speaker Turn Embedding 文本无关的声纹提取系统,使用BiRNN 模型提取 triplet,优化目标是扩大不同 speaker 声纹特征的分离度、内聚相同 speaker 声纹特征,效果提升明显。代码开源地址 hbredin/TristouNet 。triplet 借鉴于 face recognition/clustering [13, 14]。近年语音界开始借鉴 图像/视觉,再如[15]。
声纹系统需要解决的问题:
- enroll / test duration mismatch;
- enroll / test environment mismatch;
- portable system;
- robust 双刃剑[12];PS: 所见过的指纹机经常报“请再按一次”“请再按一次”“请再按一次”“请再按一次”