语音转换与直播字幕技术解析
在语音处理领域,语音转换和直播字幕是两个重要的研究方向。语音转换旨在改变语音的特征,如音高、音色等,以实现不同说话人的语音模拟;而直播字幕则是为了让听力障碍者或在特定环境下的观众能够理解电视节目的内容。下面将详细介绍这两个方面的相关技术和实验。
语音转换的参数化语音编码框架
语音转换的参数化语音编码框架涉及多个关键参数的处理,包括音高、浊音估计、增益包络和子带分析等。
- 音高评估 :音高周期通过在定义的区间内搜索自相关函数的主峰值位置来评估。为提高可靠性,将原始和2倍上采样并插值的自相关向量进行上半波整流并相乘,生成周期性指数,该指数在基频周期的两倍处达到峰值。此外,还会进行明确的检查,以避免选择减半或加倍的音高周期。
- 浊音估计 :浊音水平被估计为整体混合中谐波分量的连续分数。与传统方法不同,该方法避免了浊音的量化,减少了逻辑量,并允许向呼吸声或耳语声的逐渐转变。浊音比例的评估基于音高滞后及其倍数处自相关峰值水平的加权和,值始终被限制在0到1的范围内。
- 增益包络 :增益每10毫秒从窗口上的残余能量估计得出。在合成阶段,浊音水平用于将能量分为谐波/随机部分,并通过使用汉明窗sinc函数滤波器在对数域内插值,以采样率生成平滑包络。
- 子带分析 :为了更真实地模拟既嘈杂又有谐波的音素,采用了子带处理方法。定义了四个频率带,并从带通滤波后的语音中估计浊音水平。在生成激励时,每个浊音水平用于生成具有不同谐波和噪声分量比例的带限混合。
超级会员免费看
订阅专栏 解锁全文
878

被折叠的 条评论
为什么被折叠?



