语音信号处理:从基础到模型构建
1. 语音信号的本质
语音信号的形成源于语音器官各部分的协同活动,这些器官包括肺、气管、带有声带的喉、带有小舌的咽、口腔和鼻腔。从物理角度看,它是一种在空气中传播的纵波。其产生过程为:空气在肺部压力作用下进入气管,随后通过喉部进入口腔。在通过喉部时,气流因声带的活动而被调制,从而产生周期性的声波,这些声波在经过口腔和鼻腔时进一步被修饰,最终从嘴唇发出形成可测量的声学信号。
语音产生系统可分为声门和声道两部分。声门部分是指系统中直到咽部入口的部分,而从咽部到嘴唇的部分则是声道。在声带之间的开口(声门)进行准周期性变化时,准周期性的空气脉冲从气管进入声道并激发它。通常,在产生浊音时声带的振动频率被定义为基本语音频率。来自声门的气流会经过由小舌、上颚、牙齿和嘴唇位置形成的各种狭窄处,这构成了一个具有滤波特性的声学振荡电路系统,使得某些谐波或谐波组得到增强,而其他的则被抑制。在给定的基本声音频率下,会形成各种频谱,据此可以区分不同的声音。
从信息传递的角度来看,虽然语音信号在理论上可以有无限种不同的值,但人类只能感知到差异超过某个阈值的信号。因此,语音信号实际上只有有限个不同的值,这个数量决定了语音信号能够传递的总信息量。如果只关注语音信号所携带的有意义信息,就可以忽略那些不改变语音含义的变化。通过将携带相同有意义信息的声音统一起来,就得到了音素这一基本语言元素的概念。音素是语言的基本区别性元素,它代表了与我们思维相对应的语音功能单元。不过,音素并不是感知的基本单位,因为许多声音之间的重要差异(如声音强度、音高、口音等)无法仅通过音素来表达。
从语音学的角度,语音可分为元音和辅音,辅音又可进一步分为浊辅音和清辅音。上述语音产生过程主要与
超级会员免费看
订阅专栏 解锁全文
1224

被折叠的 条评论
为什么被折叠?



