语音识别中代价函数_【语音算法系列】声纹识别助力身份认证

本文介绍了声纹识别技术,它利用每个人的声道、口腔和鼻腔差异来识别说话人的身份。文章详细阐述了声纹识别的应用分类,包括文本无关和文本相关识别,并解释了说话人确认和说话人辨认的区别。此外,文章还讨论了声纹识别的性能评价指标,如错误拒绝率、错误接受率和等错误率。最后,文章探讨了从语音信号提取声纹特征的过程,包括短时声学特征、GMM-UBM、I-Vector和X-Vector等算法,以及信道补偿技术,如LDA和PLDA。在贝壳的声纹识别应用中,多算法结合、抗噪音和抗时变策略提高了识别的准确性和用户体验。

声纹识别,也称为说话人识别(speaker recognition),是一种基于语音中能表征说话人的信息,来判别说话人身份的生物特征识别技术,相比其他生理特征在远程身份认证中具有先天优势。

拨云见日--初识声纹

生活中对于声纹最直观认识就是:我们在打电话时,一声“喂?”就能分辨出接电话的人是谁。从直觉上来讲,说话人语音的差异并不如人脸、指纹的差异那么直观,但是由于每个人的声道、口腔、鼻腔都各具差异,这些个体差异可以直接反映到人们的发音上。

人脸识别和指纹识别都是基于图像的二维信号,而语音是一种时变的一维信号,其表现形态简单,但蕴含的语音信息非常丰富。以下图为例,展示的是贝壳的唤醒词“hey,小贝”的时域波形图,其承载的首先是语意信息,即唤醒词,其次它还可以包含语种(中文、英文)信息,性别信息,情感信息(高兴、悲伤……)等等,而在这成百上千的语音信息背后只对应了一个唯一不变的身份信息。

02a12c8a0f90d07b151b8aa2d8bde44a.png

继续观察“hey,小贝”的波形特征,比较不同人说话之间的差异。图1是说话人A对应的“贝”,图2是说话人B对应的“贝”,图3是说话人A对应的“小”。

4f0d9f0958eaf722864466fad55b7c63.png

图1

2cf52b2f9774297262bbd483791aa2d5.png

图2

7f612cc90d68275068fcdf9097f4361f.png

图3

如果左侧的语音波形图不够直观,我们也可以观察右侧对应的语音频谱图。从图片上看,似乎图1和图2更相似一点,但实际上图1和图3来自同一个人,因为图3承载了不同的语义信息,所以图3和图1,图2有了明显的差异。在语音识别中声纹特征有助于语音识别,而在声纹识别中语义信息反而会影响声纹特征的提取,因此在这句话的声纹识别中干脆不要比较“小”和“贝”,直接都比较同一个字“贝”好了,这样更容易分析出声纹的差异。所以,根据声纹识别是否比较同一批字也可以将声纹识别进行应用上的分类,将在下一节进行详细介绍。

声纹识别的应用分类

从发音是否受限上来区分,声纹识别可以分为文本无关识别与文本相关识别。

文本无关:顾名思义就是声纹识别系统对用户的输入语音内容不做限制,识别系统需要克服用户发音的多变性和差异性,从中挖掘出用户唯一的身份信息,对发音背后的身份做出准确判断。

文本相关:识别时会限制发音词典,要求说特定文本,往细了分,文本相关又可以分为文本全相关和文本半相关。文本全相关就是固定识别口令,比如在我们的唤醒系统中,只有用户说“小贝,小贝”或者“hey,小贝”,系统才会去识别声纹,而说其它词,则概不识别;而文本半相关就是将发音限制在有限的集合中,一般使用在账户登录、支付等场景,在这些种场景中,系统会随机搭配一些数字,用户需要根据字符顺序正确的念出内容才可以进行声纹判断,这种随机性的引入无疑提升了系统的安全性,保障了用户的安全,杜绝了仿冒、窃取、复制用户声纹信息的可能性。

除了从发音是否受限来区分声纹应用外还可以从识别场景上来分类声纹应用,具体可以分为以下两类:说话人确认(Speaker Verification,SV)、说话人辨认(Speaker Identification,SI):

说话人确认:是一种1对1的二分类问题。系统需要接收到一段待识别语

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值