文档图像矫正任务的前沿进展：引入Transformer、自监督框架的思路

原创

于 2025-01-22 09:30:00 发布 · 1.5k 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #大数据 #图像处理

在《文档数字化采集与智能处理：图像弯曲矫正技术概述》一文中，我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级，文档图像去畸变技术也在不断探索新的可能性。

今天，我们将讨论近年来文档图像矫正任务的前沿进展，分享一些我们正在关注的方向，欢迎与我们共同探讨、交流进步。

Transformer 架构下的文档矫正探索

代表性工作

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [1]

研究结果
- 提出了一种新的框架 DocTr，用于解决文档图像的几何和照明失真问题。该框架包括一个几何矫正 Transformer 和一个照明矫正 Transformer，通过设置一组学习的查询嵌入，几何矫正 Transformer 捕获文档图像的全局上下文，并解码像素级位移解决方案以纠正几何失真。在几何矫正后，照明矫正 Transformer 进一步去除阴影伪影，提高视觉质量和 OCR 准确性。

创新优势
- 首次尝试将Transformer架构应用于文档图像矫正领域，提出了一个新的视角：把矫正过程看作是从“弯曲”状态到“平坦”状态的转换。
- 通过自注意力机制捕捉全局上下文信息，同时

最低0.47元/天解锁文章

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。