自适应语音识别的进化智能系统
1 自适应语音识别简介
1.1 语音与语音识别
语音识别是信号处理领域极具挑战性的应用之一。语音是随时间通过介质传播的波序列,具有强度和频率等特征。人类通过内耳感知语音,内耳小元素的振动会传递到大脑特定区域进行进一步处理。许多研究人员利用语音识别的生物学背景开发类人自动语音识别系统(ASRS),也有研究人员采用其他方法。
语音可以在不同尺度上表示:
- 时间尺度,其表示称为波形表示。
- 频率尺度,其表示称为频谱。
- 时间和频率尺度,即语音信号的频谱图。
区分语音的三个感知特征是响度、音高和音质。响度与时域波形的振幅有关,更准确地说与声音的能量(强度)有关;音高是发声器官基本频率的感知相关量;音质是声音频谱内容的感知相关量。声音的共振峰是其具有最大声能的频率,声道形状决定哪些频率分量会共振。频谱图的横轴表示时间,纵轴表示频率,颜色(灰度)表示频率分量的能量。
语音识别的根本困难在于语音信号具有高度可变性,受说话者、语速、语境和声学条件等因素影响。语音信号还依赖于声道的物理特征,而声道特征又与年龄、性别、地域等有关。同一语音在不同时间也会有变化,不同口音会导致不同的节奏和语调。说话者在正式和非正式场合的说话方式也会不同,这会给语音识别系统带来挑战。此外,协同发音效应会使音素、单词的发音因所在单词、语境和句子位置而异,语速也会导致语音变化。
1.2 自适应语音识别
由于语音的可变性,需要鲁棒且自适应的系统来适应新的变化、口音和发音。自适应语音识别问题关注开发高精度、独立于说话者的识别方法和系统,使其能够快速适应新单词、新口音和新说话者,
超级会员免费看
订阅专栏 解锁全文
860

被折叠的 条评论
为什么被折叠?



