-
Connectionist Temporal Classification (CTC)
CTC适合语音识别和手写字符识别任务
-
定义
输入表示:符号序列 X = [ x 1 , x 2 , . . . , x T ] X=[x_{1},x_{2},...,x_{T}] X=[x1,x2,...,xT]
输出表示:符号序列 Y = [ y 1 , y 2 , . . . , y U ] Y=[y_{1},y_{2},...,y_{U}] Y=[y1,y2,...,yU]目标:找到输入X与输出Y之间精确的映射关系。
-
难点:
1、X和Y都是变长的
2、X和Y的长度比也是变化的
3、X和Y相应的元素之间没有严格的对齐(即 x t 与 y u x_{t}与y_{u} xt与yu不一定对齐)
-
-
损失函数的定义
对于给定的输入 X X X,我们训练模型希望最大化 Y Y Y的后验概率 P ( Y ∣ X ) , P ( Y ∣ X ) P(Y|X),P(Y|X) P(Y∣X),P(Y∣X)应该是可导的,这样我们就能利用梯度下降训练模型了。 -
预测
当我们已经训练好一个模型后,输入 X X X,我们希望输出 Y Y Y的条件概率最大,即Y ∗ = arg max Y p ( Y ∣ X ) Y*=\mathop{\arg\max}_{Y}p(Y|X) Y∗=
深度/机器学习基础知识要点:CTC算法
最新推荐文章于 2025-09-27 10:56:20 发布
本文深入解析Connectionist Temporal Classification(CTC)算法,探讨其在语音识别和手写字符识别中的应用,阐述输入输出对齐难题及解决方案,介绍CTC损失函数与预测原理,展示动态规划求解过程,并分析CTC特性与限制。

最低0.47元/天 解锁文章
616

被折叠的 条评论
为什么被折叠?



