端到端的文本图像分块矫正方法2021该论文提出将一张文档图像切分成多个Patches来进行局部矫正,这种方式相比于直接在整图上进行全局矫正能够获得更好的效果。而对比之前同样基于Patch进行局部矫正的方法[1],本文实现了Patches拼接过程的端到端可训练化,同时为拼接过程加入了全局信息,可以得到更好的拼接效果。本文方法在多个指标上好于目前的SOTAs。 DocTr2021:同时进行文档图像几何矫正和光照恢复的框架。 PaperEdge的新方法,通过结合真实世界和合成数据来提升文档去扭曲的性能。PaperEdge利用真实文档边缘进行弱监督学习,解决了现有深度学习模型在处理真实世界图像时的局限性。2022提出在模型训练阶段引入真实数据,以提升模型的矫正性能。PaperEdge方法的训练过程能够同时利用合成数据和真实数据。对于合成数据,采用有监督的方式进行训练;对于真实数据,则利用文档边缘作为弱监督信号进行训练。这种混合训练方式使得模型能够更好地适应真实世界的文档图像。PaperEdge采用了一种新的网络架构,该架构包含两个子网络:Enet和Tnet。Enet负责根据文档的边界信息进行全局的粗略矫正,输出一个形变场将文档图像拉平成四边形;Tnet则负责在Enet的基础上进行局部的细粒度矫正,以进一步提高矫正精度。sota DDCP(Document Dewarping with Control Points)2022:DDCP是一种基于控制点的文档图像矫正方法。它利用编码器架构从图像中自动提取语义信息,用于预测控制点和参考点。控制点和参考点分别描述了校正前和校正后文档在图像中的形状。然后,通过控制点与参考点之间的插值方法,将稀疏映射转换为密集向后映射,实现文档的矫正。DDCP方法具有简单高效、允许多次编辑等优点。sota DocReal2023:DocReal是一种结合了Enet和注意力增强控制点(AECP)模块的文档图像矫正方法。它首先使用Enet检测文档边缘信息,去除背景噪声并提取文档主体;然后利用AECP网络来更好地捕获文档的局部变形,从而预测更准确的控制点。此外,DocReal还通过合成具有3D变形和附加变形类型的2D图像来增强训练数据,以提高模型的泛化能力。DocReal结合了paperedge中Enet和DDCP中的控制点思想 RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline Model and DoF-based Curriculum Learning 通过薄板样条模型和基于 DoF 的课程学习对矩形校正广角图像ICCV2023 SimFIR: A Simple Framework for Fisheye Image Rectification with Self-supervised Representation LearningICCV2023一种具有自监督表示学习的鱼眼图像校正简单框架 Innovating Real Fisheye Image Correction with Dual Diffusion ArchitectureICCV2023使用双扩散架构创新真实鱼眼图像校正 Foreground and Text-lines Aware Document Image RectificationICCV2023前景和文本行识别文档图像校正 A novel deep learning based method for Vietnamese ID card skew correctionICDV2024一种基于深度学习的新型越南身份证歪斜校正方法 A Bottom-Up Human Pose Estimation Correction Method Based on Object DetectionDDCLS2024一种基于目标检测的自下而上的人体姿态估计校正方法 Radial Distortion Correction of UAV Images Based on Geometric Properties of PV Modules2024YAC基于光伏组件几何特性的无人机图像径向畸变校正