线性与非线性预测残差信号及多滤波器组方法在说话人验证中的应用
1. 线性与非线性预测残差信号的作用
在说话人识别系统中,残差信号的应用一直是研究的热点。若不进行归一化处理,相当于进行加权组合,其中线性预测倒谱系数(LPCC)距离对组合结果的影响比残差信号更大。
通过相关图表对不同向量维度(P)和组合参数的识别率进行了总结。同时,还给出了基于特定比率的判别能力度量,该比率越高,识别率越好。从均值和标准差的图表中可以看出,非线性残差信号的内部和外部距离重叠比线性残差信号更多,这表明非线性残差信号在说话人识别中的潜力较小。
1.1 参数组合与识别率
一些研究表明,将经典参数(如LPCC、梅尔倒谱系数)与残差分析信号的某种参数化相结合,可以提高识别率。但实验发现,只有当分析阶数在8到16之间时,这种方法才有效。这是因为在这个范围内,频谱包络可以用这些数据充分拟合,无需增加参数数量。
1.2 残差信号的冗余性与互补性
对于高阶参数向量,虽然残差信号在说话人之间具有显著的判别能力,但它似乎与LPCC或梅尔倒谱系数冗余,并不实用。而使用非线性分析的残差信号时,组合信号的相关性更低。尽管非线性残差信号的判别能力较低,但在多个分析阶数下,组合方案的性能优于线性分析。
1.3 评估残差信号相关性的流程图
为了评估残差信号的相关性,有一个重要的流程图:
graph LR
A[能否使用残差信号获得“良好识别率”] -->|NO| B(无用)
A -->|YES| C[是否冗余,能否组
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



