语音处理建模与非对称接触碳纳米管场效应晶体管研究
1. 语音处理建模
语音在人类交流中扮演着至关重要的角色,它不仅是人与人之间简单自然的沟通方式,在计算机领域也成为了控制计算机工作的有效工具,降低了键盘和显示器的重要性。语音信号通过声道以声学方式表达思想,其声学结构和所传递信息之间存在着相互关系。
在语音现象中,声门的正常行为起着关键作用。即使是由疾病或先天畸形引起的微小畸变,也会对最终的语音质量产生重大影响。人类声道的解剖结构以及所有语音产生器官的动作都非常复杂,因此自然声道成为了不同数学模型的参考点。
1.1 特征向量的选择
目前基于语音频谱图的语音处理方法并不完美,需要进一步研究以改进这些方法,将频谱参数与时间特征相结合。其中一个重要任务是正确定义特征向量,以下四个向量尤为重要和有用:
- 长期频谱向量(LTS) :是语音质量的重要指标,对说话人验证很有帮助。它对基于低质量语音信号的说话人识别具有高灵敏度,能够在高噪声和有限频率通带的信号中取得较好的结果,并且同一说话人的不同情绪对其影响不大。
- 说话基频向量(SFF) :也是一个强大的向量,但它的效率取决于能够精确跟踪和提取基频的处理系统,同时还需要考虑这些频率的统计行为。
- 时间 - 能量分布向量(TED) :用于表征语音韵律,可以提取说话人的一些特征,如说话速率、停顿、响度特征等,但该向量受说话人情绪的影响较大。
- 元音共振峰跟踪向量(VFT) :强烈依赖于声道的个体大小和形状,可以通过声道的解剖特性
超级会员免费看
订阅专栏 解锁全文
109

被折叠的 条评论
为什么被折叠?



