【多模态】paper阅读笔记：TrOCR

Jim_gaogao

已于 2024-01-06 10:53:43 修改

阅读量1k

点赞数 20

分类专栏：多模态论文文章标签：笔记人工智能目标检测

于 2024-01-04 18:58:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43071505/article/details/135393696

版权

TrOCR是微软亚洲研究院提出的一种基于Transformer的端到端OCR模型，首次结合预训练图像和文本Transformer，无需CNN，且在打印体和手写体识别上超越现有方法。它使用ViT预训练模型初始化编码器，RoBERTa预训练模型初始化解码器，实现了在无额外预处理步骤下的一流识别效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
论文：https://arxiv.org/abs/2109.10282
代码/模型：https://aka.ms/trocr
光学字符识别（OCR）是将手写或印刷文本的图像转换成机器编码的文本，可应用于扫描文档、照片或叠加在图像上的字幕文本。一般的光学字符识别包含两个部分：文本检测和文本识别。

文本检测用于在文本图像中定位文本块，粒度可以是单词级别或是文本行级别。目前的解决方案大多是将该任务视为物体检测问题，并采用了如YoLOv5 和 DBNet 的传统物体检测模型。
文本识别致力于理解文本图像并将视觉信号转换为自然语言符号。该任务通常使用编码器-解码器架构，现有方法采用了基于 CNN 网络的编码器进行图像理解，以及基于 RNN 网络的解码器进行文本生成。

在文本识别领域中，Transformer 模型被频繁采用，其结构的优势带来了显著的效率提升。然而，现有方法仍主要采用 CNN 网络作为主干网络，并在此基础上配合自注意力机制来理解文本图像；另外，现有方法还依旧采用 CTC 作为解码器，配合额外的字符级别的语言模型来提高整体的准确率。这种混合模型虽然取得了巨大的成功，但仍然有很大的提升空间：

现有模型的参数是在合成或人工标注的数据上从零开始训练的，没有探索大规模预训练模型的应用。
图像 Transformer 模型变得愈发流行，特别是最近提出的自监督图像预训练。现在应当开始探索预训练的图像 Transformer 是否可以替代 CNN 主干网络，以及预训练的图像 Transformer 是否可以在单一网络中配合预训练文本 Transformer 进行文本识别任务。

因此，微软亚洲研究院的研究员们聚焦文本识别任务展开了多项研究，并提出了首个利用预训练模型的端到端基于Transformer 的文本识别 OCR 模型：TrOCR，模型结构如图1。

最低0.47元/天解锁文章

博客等级

码龄7年

10
原创

137
点赞

157
收藏

82
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【多模态】paper阅读笔记：Kosmos-2.5

下一篇：: 【多模态】paper阅读笔记：Donut

最新评论

【多模态】paper阅读笔记：Donut
优快云-Ada助手: 恭喜你写完了第5篇博客！标题中的"多模态"和"paper阅读笔记"让我对你的文章产生了浓厚的兴趣。Donut这篇文章看起来也很有潜力。我希望你能继续坚持创作，因为你的努力可以为读者带来很大的收获。在下一篇博客中，也许你可以尝试加入一些个人观点或实例，来进一步丰富你的内容。这样一来，读者就能更好地理解你的观点，并从中获得更多的启发。期待你的下一篇作品！加油！
【多模态】paper阅读笔记：TrOCR
优快云-Ada助手: 恭喜您撰写了第四篇博客！标题【多模态】paper阅读笔记：TrOCR】引人入胜。您在分享TrOCR的阅读笔记时，对多模态技术的应用做了很好的总结。非常感谢您持续创作并与读者分享知识。在下一步的创作中，或许您可以尝试与读者分享一些实践经验，例如如何应用TrOCR解决实际问题或者对其进行改进的思考。期待您更多精彩的博文！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
【多模态】paper阅读笔记：BEiT V3
优快云-Ada助手: 博客写得非常好！你对BEiT-3的paper阅读笔记做得非常详细，而且摘要中提到的将图像视为一种语言的方式以及大规模语言模型的预训练方法的思路非常有启发性。不过，除了大模型发展成熟的条件外，还可以进一步探讨一些其他与多模态相关的扩展知识，比如跨模态学习的方法、多模态推理等内容。希望你可以继续分享更多关于多模态的知识，期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【多模态】paper阅读笔记：Kosmos-2.5
优快云-Ada助手: 恭喜你写了第三篇博客，标题看起来很有趣！对于Kosmos-2.5的paper阅读笔记，我期待着能够从你的文章中了解更多相关内容。希望你能继续保持创作的热情，同时也建议你可以尝试加入一些个人观点或者实际案例，让读者更易于理解和接受你的观点。期待你的下一篇文章！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
文本摘要任务简述
m0_56541760: 你好，请问你是如何实验那个DUC2007做实验的呢

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jim_gaogao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。