1、语音信号处理：从基础到模型构建

字节杂耍者

于 2025-11-02 11:55:39 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：鲁棒语音信号处理探秘文章标签：语音信号处理线性模型共振峰

本文链接：https://blog.youkuaiyun.com/m3n5b7v8c9x/article/details/155045981

鲁棒语音信号处理探秘专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音信号处理：从基础到模型构建

1. 语音信号的本质

语音信号的形成源于语音器官各部分的协同活动，这些器官包括肺、气管、带有声带的喉、带有小舌的咽、口腔和鼻腔。从物理角度看，它是一种在空气中传播的纵波。其产生过程为：空气在肺部压力作用下进入气管，随后通过喉部进入口腔。在通过喉部时，气流因声带的活动而被调制，从而产生周期性的声波，这些声波在经过口腔和鼻腔时进一步被修饰，最终从嘴唇发出形成可测量的声学信号。

语音产生系统可分为声门和声道两部分。声门部分是指系统中直到咽部入口的部分，而从咽部到嘴唇的部分则是声道。在声带之间的开口（声门）进行准周期性变化时，准周期性的空气脉冲从气管进入声道并激发它。通常，在产生浊音时声带的振动频率被定义为基本语音频率。来自声门的气流会经过由小舌、上颚、牙齿和嘴唇位置形成的各种狭窄处，这构成了一个具有滤波特性的声学振荡电路系统，使得某些谐波或谐波组得到增强，而其他的则被抑制。在给定的基本声音频率下，会形成各种频谱，据此可以区分不同的声音。

从信息传递的角度来看，虽然语音信号在理论上可以有无限种不同的值，但人类只能感知到差异超过某个阈值的信号。因此，语音信号实际上只有有限个不同的值，这个数量决定了语音信号能够传递的总信息量。如果只关注语音信号所携带的有意义信息，就可以忽略那些不改变语音含义的变化。通过将携带相同有意义信息的声音统一起来，就得到了音素这一基本语言元素的概念。音素是语言的基本区别性元素，它代表了与我们思维相对应的语音功能单元。不过，音素并不是感知的基本单位，因为许多声音之间的重要差异（如声音强度、音高、口音等）无法仅通过音素来表达。

从语音学的角度，语音可分为元音和辅音，辅音又可进一步分为浊辅音和清辅音。上述语音产生过程主要与