34、端到端语音识别架构解析

躺平摸鱼王

于 2025-11-07 11:18:16 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑语音识别文章标签：端到端语音识别 CTC 编码器-解码器

本文链接：https://blog.youkuaiyun.com/k8s6orchestrator/article/details/155061484

深度学习重塑语音识别专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

端到端语音识别架构解析

端到端学习的兴起

近年来，随着深度学习的发展，端到端解决方案在许多领域崭露头角。以图像分类任务为例，传统的图像分类方法先提取手工特征（如SIFT），再将分类器（如支持向量机）应用于提取的特征。而深度卷积神经网络（CNNs）的出现，使图像分类能够以纯粹的端到端方式进行。CNN的输入只需经过适当预处理的原始像素值，在标注数据上训练后，直接从softmax层生成分类结果。这种端到端范式还被广泛应用于各种计算机视觉任务，如目标检测、人脸识别、场景标注和视频分类等。

在机器翻译领域，端到端方法也取得了巨大成功。传统的统计机器翻译系统构建包含一系列中间步骤，可能会面临单独优化的问题。为实现端到端机器翻译，提出了编码器 - 解码器架构，其中一种优雅的变体——注意力模型也被开发出来。除机器翻译外，这种编码器 - 解码器范式还用于图像字幕生成、视频字幕生成等任务。

将基于注意力的编码器 - 解码器模型应用于语音识别是很自然的想法。理论上，构建自动语音识别（ASR）系统需要学习从语音特征向量到转录文本（如单词、音素、字符等）的映射，且两者都是序列形式，无需重新排序。如果能直接学习这种映射，所有组件将在统一目标下进行优化，从而提高最终的识别性能，无需单独的声学模型和语言模型。但在实践中，将语言模型（描述“说什么”）和声学模型（描述“怎么说”）分开可能更实用。尽管这种分离违背了端到端学习的初衷，但基于连接主义时间分类（CTC）的方法仍被社区视为“端到端”方法，因为其目标函数本质上是基于序列的。