语音识别的端到端架构
端到端学习的崛起
近年来,随着深度学习的发展,端到端解决方案在多个领域崭露头角。以图像分类任务为例,传统方法是先提取手工特征(如SIFT),再使用分类器(如支持向量机)对提取的特征进行分类。而深度卷积神经网络(CNNs)则能以纯粹的端到端方式进行图像分类,其输入仅需经过适当预处理的原始像素值,在标注数据上训练后,直接从softmax层生成分类结果。这种端到端范式还被广泛应用于目标检测、人脸识别、场景标注和视频分类等计算机视觉任务。
在机器翻译领域,端到端方法也取得了巨大成功。传统统计机器翻译系统构建包含一系列中间步骤,可能面临单独优化的问题。而编码器 - 解码器架构的提出实现了端到端机器翻译,其中注意力模型更是该架构的优雅变体。除机器翻译外,编码器 - 解码器范式还用于图像字幕生成、视频字幕生成等任务。
将基于注意力的编码器 - 解码器模型应用于语音识别是很自然的想法。理论上,构建自动语音识别(ASR)系统就是学习从语音特征向量到转录文本(如单词、音素、字符等)的映射,若能直接学习这种映射,所有组件将在统一目标下优化,可提升最终识别性能,无需单独的声学模型和语言模型。但在实践中,保持语言模型(描述“说什么”)和声学模型(描述“怎么说”)的分离可能更实用。尽管这种分离违背了端到端学习的初衷,但基于连接主义时间分类(CTC)的方法仍被业界视为“端到端”方法,因为其目标函数本质上是基于序列的。
端到端ASR架构的分类
目前,语音处理领域主要有两种端到端方法,它们在使观测值与输出符号的对齐方式以及输出符号之间的依赖顺序上有所不同。
- 连接主义时间分类(CTC) :基于帧的神
超级会员免费看
订阅专栏 解锁全文
903

被折叠的 条评论
为什么被折叠?



