端到端语音识别架构解析
端到端学习的兴起
近年来,随着深度学习的发展,端到端解决方案在许多领域崭露头角。以图像分类任务为例,传统的图像分类方法先提取手工特征(如SIFT),再将分类器(如支持向量机)应用于提取的特征。而深度卷积神经网络(CNNs)的出现,使图像分类能够以纯粹的端到端方式进行。CNN的输入只需经过适当预处理的原始像素值,在标注数据上训练后,直接从softmax层生成分类结果。这种端到端范式还被广泛应用于各种计算机视觉任务,如目标检测、人脸识别、场景标注和视频分类等。
在机器翻译领域,端到端方法也取得了巨大成功。传统的统计机器翻译系统构建包含一系列中间步骤,可能会面临单独优化的问题。为实现端到端机器翻译,提出了编码器 - 解码器架构,其中一种优雅的变体——注意力模型也被开发出来。除机器翻译外,这种编码器 - 解码器范式还用于图像字幕生成、视频字幕生成等任务。
将基于注意力的编码器 - 解码器模型应用于语音识别是很自然的想法。理论上,构建自动语音识别(ASR)系统需要学习从语音特征向量到转录文本(如单词、音素、字符等)的映射,且两者都是序列形式,无需重新排序。如果能直接学习这种映射,所有组件将在统一目标下进行优化,从而提高最终的识别性能,无需单独的声学模型和语言模型。但在实践中,将语言模型(描述“说什么”)和声学模型(描述“怎么说”)分开可能更实用。尽管这种分离违背了端到端学习的初衷,但基于连接主义时间分类(CTC)的方法仍被社区视为“端到端”方法,因为其目标函数本质上是基于序列的。
端到端ASR架构
目前,语音处理领域主要有两种端到端方法,它们在使观测值与输出符号之间的对齐显式化的方式以及输出符号之间依赖关系的排序方式上有所不同。 </
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



