Connectionist Temporal Classification（CTC）——李宏毅人类语言处理学习笔记

原创已于 2022-12-22 00:52:34 修改 · 588 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #深度学习 #人工智能

于 2022-12-03 21:33:36 首次发布

李宏毅人类语言处理专栏收录该内容

8 篇文章

订阅专栏

本文探讨了CTC(连接时序分类)在在线语音识别中的应用，特别是在使用单向RNN作为编码器的情况。文章分析了CTC如何通过引入null标记来处理小帧的问题，并介绍了CTC在训练过程中的标签生成方法。此外，还讨论了CTC可能遇到的一些识别错误，并提出了解决方案。

CTC

ctc可以做到online recognition，它只需要encoder，在进行语音辨识时，要选择一些可以支持online recognition的encoder，例如：单向RNN。
在这里插入图片描述
但是输入的x1——声音讯号特征，其frame很小，往往代表了少量信息甚至null，因此较难判断是哪个token，所以在ctc的token中引入了一个null。

输出中有一部分是null，但实际输出中不能有null，所以ctc会做一下后处理，即合并token，移除null。
在这里插入图片描述

怎么训练呢？

question:不知道正确的输出是什么，4个位置应该放什么。
在这里插入图片描述
自己制造合适的label，穷举所有的alignment。

来自博客添加链接描述
在这里插入图片描述

CTC存在的问题

假设前三个frame都是ccc，正常来说是最后输出的是c。但是第二个没识别成功认为它是null，那么前三个frame就是c null c，最后输出就是cc，就结巴了…，但是也没有这么糟糕，我们可以在encoder中做一些处理，比如已经输出c了我们则降低输出c的概率。
在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是小蔡呀～～～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。