18、基于全极点模型的RNN语音清晰度增强频谱倾斜估计

基于全极点模型的RNN语音清晰度增强频谱倾斜估计

1. 引言

随着移动通信设备的普及,现代通信作为一种多媒体通信方式在社会中得到广泛应用。在日常生活环境中,如地铁、路边、机场等,人们不可避免地会使用手机进行交流,这意味着在语音通信过程中会伴随着更多的噪音。因此,提高处于嘈杂环境中的手机用户的语音清晰度尤为重要。

根据语音通信系统的收发终端,通常可分为两种不同的场景:远端场景和近端场景。许多研究人员专注于远端场景的噪声消除,以去除嘈杂语音中的噪声。然而,即使在嘈杂环境中的听众接收到来自智能手机扬声器的清晰语音,该语音仍会被噪声掩盖,导致语音清晰度下降。近年来,为解决这一问题,提出了几种语音清晰度增强(IENH)方法,也称为近端聆听增强(NELE)。

一些IENH方法基于语音清晰度指数(SII)优化或频带能量重新分配。SII优化措施依赖于噪声,且往往会降低语音质量。当可用增益有限时,该技术的性能会明显下降,因此难以在实时语音通信中实现。频带能量重新分配措施在总信号能量约束下,根据噪声和信号频带能量之间的量化关系修改频带能量。它们在很大程度上提高了清晰度,但也降低了语音的自然度和主观聆听舒适度。

部分研究人员关注基于人类语音产生机制的IENH方法。在嘈杂场景中,说话者会在环境噪声的压力下本能地改变说话风格,这被称为伦巴德效应。先前的研究表明,伦巴德语音通常比在安静场景中产生的正常语音更清晰,这归因于一些特征的变化,如频谱倾斜的平坦化、语速的降低和发声强度的增加。其中,频谱倾斜被认为是提高清晰度的最重要因素。

2012年,Zorilâ提出了基于频谱整形和动态范围压缩(SSDRC)的IENH技术。SSDRC算法利用了伦巴德效应中频谱倾斜平坦化可显著提

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值