通用OCR理论：使用统一的端到端模型构建OCR-2.0，可处理普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状...

最新推荐文章于 2025-04-07 09:54:10 发布

ronghuaiyang

最新推荐文章于 2025-04-07 09:54:10 发布

阅读量451

点赞数

文章标签： ocr 人工智能计算机视觉算法深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247498120&idx=1&sn=ee3e95e55cfa1df1777a70a8de64a9a6&chksm=c10bc1d12fb5d59c1c7e250543b8553fca5f4ecad264f1e4ecf3e384a66a81fc8b5f00b68e09&scene=126&sessionid=0

版权

导读

作为OCR-2.0模型，GOT能够在各种OCR任务中处理上述所有类型的“字符”。包括：普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状。

摘要

传统的光学字符识别系统（OCR-1.0）越来越难以满足人们对人造光学字符智能处理的需求。在本文中，我们将所有的人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型——即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参数，是一种统一、优雅且端到端的模型，包括高压缩率的编码器和长上下文解码器。作为OCR-2.0模型，GOT能够在各种OCR任务中处理上述所有类型的“字符”。在输入方面，该模型支持常用的场景和文档风格图像，无论是切片还是整页样式。在输出方面，GOT可以通过简单的提示生成普通或格式化的结果（如Markdown/TikZ/SMILES/Kern）。此外，该模型还具备交互式OCR特性，即通过坐标或颜色引导的区域级识别。进一步地，我们还将动态分辨率和多页OCR技术应用于GOT，以提高其实际应用性。实验中，我们提供了充分的结果来证明我们模型的优越性。

1 介绍

光学字符识别（OCR）是一项广泛使用的技术，可以从光学图像中提取嵌入的字符转换为可编辑的格式。典型的OCR-1.0时代的系统主要是基于多模块流水线设计的，通常包括元素检测、区域裁剪和字符识别部分。每个模块都容易陷入局部最优状态，导致整个系统的维护成本高昂。此外，传统的OCR方法泛化能力不足，表现为不同的OCR-1.0网络通常是为不同的子任务设计的。然而，从多种OCR模型中选择一个特定任务适用的模型对用户来说总是不方便的。

在过去的一年里，大型视觉语言模型（LVLMs）发展迅速，并展示了令人印象深刻的表现。作为一个备受期待的能力，当前LVLMs的OCR性能正在持续提升。基于CLIP，LLaVA在指令调优阶段后自然获得了英语OCR能力。为了提高OCR精度并支持其他语言，比如中文，Qwen-VL解冻了它的图像编码器（一个CLIP-G），并在第二阶段训练中使用了大量的OCR数据。创新性地，Vary生成了一个新的高分辨率OCR视觉词汇表，与CLIP分支平行工作，以处理文档级别的密集OCR。相比之下，InternVL-1.5和其他模型采用了滑动窗口方式将整个图像裁剪成多个子块进行高分辨率OCR。因此，共识是光学字符感知和识别是文本驱动图像理解的基础，吸引了许多研究人员更加关注LVLMs的OCR增强功能。

然而，流行的LVLM设计可能不适合多样化的OCR任务，原因如下：1）感知与推理之间的冲突。LVLMs主要专注于视觉推理表现，例如视觉问答（VQA），因为这是大模型擅长的领域。为了快速获得来自大模型的问答增益，大多数LVLMs将图像标记与文本标记对齐。然而，对于纯感知OCR任务，特别是高密度文本场景，这样做是不合理的，因为每个对齐的视觉标记（偏向于文本标记）无法压缩足够的字符。想象一下，用数千个图像标记，例如图像裁剪方式，来编码等量的光学字符（如仅一页A4-PDF中的文本）是多么浪费。2）高迭代和部署成本。LVLM通常拥有数十亿参数，导致后训练和部署成本过高。一般来说，对于LVLMs，一旦我们想要添加新的OCR模式，例如新语言，微调是不够的，而预训练则需要大量的GPU资源。但是，重新运行数十亿参数的预训练，只是为了引入一个新的OCR特性，也是浪费的。

因此，我们提出了通用OCR理论，即OCR-2.0，以打破传统和LVLM方式在OCR任务上的瓶颈。我们认为，一个OCR 2.0的模型应该具有以下基本特征：

端到端架构。与具有复杂程序的OCR-1.0模型相比，OCR-2.0模型应享受统一且端到端的架构，以确保较低的维护成本。在2.0时代，初学者可以快速掌握整个OCR系统这一点非常酷。
较低的训练和推理成本。OCR-2.0模型不应像LVLM那样是一个专注于推理任务的聊天机器人。它的重点应该是强大的光学字符感知和识别，因此它需要合理数量的模型参数以换取较低的训练和推理成本。
多功能性。OCR-2.0模型的另一个重要点是多功能性，包括识别更广泛的制造光学“字符”，例如乐谱、图表、几何形状等。此外，模型应支持更具可读性的输出格式，例如用于公式和表格的LATEX/Markdown格式。

基于提出的通用OCR理论，我们介绍了一种初步的OCR-2.0模型（GOT），旨在弥合OCR-1.0模型与人们更高光学字符处理需求之间的差距。在架构上，我们采用简单的编码器-解码器范式构建模型。具体来说，GOT享受高效压缩率的编码器，将光学图像转换为标记，以及长上下文长度的解码器，输出相应的OCR结果。编码器大约有8000万参数，处理1024x1024大小的输入，足以应对常见的照片/文档输入风格。每个输入图像将被压缩成256x1024维度的标记。GOT的解码器有5亿参数，支持最多8K长度的标记，确保它可以处理长上下文场景。我们为GOT设计了一种有效且高效的训练策略，可以分为三个步骤，即编码器的独立预训练、编码器与新解码器的联合训练以及解码器的进一步后训练。此外，为了进一步提高GOT的实用性，我们额外适应了细粒度OCR特性以改善互动性，针对超高分辨率图像（如超过2K分辨率）的动态分辨率策略，以及多页OCR技术，以缓解PDF图像文本对中分页困难的问题（如.tex文件中的分页）。为了支持每个训练阶段，我们进行了许多合成数据生产的数据引擎开发，这是GOT成功的关键，并将在本文中详细描述。我们的模型支持的主要输入数据格式如图1所示。

作为展望OCR-2.0的模型，GOT在各种OCR任务的实验中展示了令人鼓舞的表现。我们希望提出的简单而优雅的GOT能够吸引更多研究者投入到OCR-2.0的研究中。当然，通往OCR-2.0的道路仍然很长，GOT也有很大的改进空间，例如支持更多语言、更普遍的人工信号和更复杂的几何形状。在这个由LVLM引领的新时代，我们相信纯OCR模型并未过时，甚至可能是一个全新的开始。

2 相关工作

2.1 传统OCR

光学字符识别（OCR）是一个经典的研究课题，旨在将图像中的光学内容转换为可编辑格式，以便进一步的下游处理。传统的OCR系统，称为OCR-1.0，通常使用一种由多个专家模块组装而成的框架。例如，为了处理多样化的光学字符，OCR系统通常是通过集成几种领域专家网络来开发的，这些网络包括布局分析、文本检测、区域提取和内容识别等。采用这种管道方案的原因是文本识别模块（即OCR部分）未能成功扩展，只能处理小片段的图像格式，导致整个OCR过程的形式首先是检测文本/裁剪区域，然后识别片段内的结果。然而，一个具有复杂程序的系统可能会遭受潜在的系统误差和高昂的维护成本。虽然一些OCR-1.0模型，如Nougat可以直接处理整个页面级别的文档，但它们通常是为特定的子任务设9计和训练的，这导致了不满意的泛化能力。在OCR-1.0时代，一个不便之处在于我们通常需要根据不同的OCR需求切换不同的模型。

2.2 LVLM驱动的OCR

大型视觉语言模型（LVLMs）因其强大的泛化能力而在AI社区中受到了广泛关注。对于当前拥有感知-推理综合能力的LVLMs而言，随着文本驱动的视觉理解需求的增长，OCR能力已经成为一个热点。大多数LVLMs的OCR能力来自于现成的CLIP模型，特别是那些冻结了CLIP编码器以完成整个LVLM训练的模型。对于这样的模型，标准版CLIP主要包含英语场景文本知识，成为处理域外任务（如其他语言或文档）时OCR性能的瓶颈。其他一些LVLMs选择解冻编码器并冻结LLM进行训练，以增强CLIP编码器并将图像token与文本token对齐。这些模型将面临低光学字符压缩率的问题，因为冻结的LLM很难从对齐的图像token中解码出过多的文本。为了缓解这个问题，一些模型采用了滑动窗口的方式将输入图像分解成更小的补丁。尽管这种动态分辨率方法在处理高分辨率输入图像（如PDF）时非常有效，但它会导致过多的图像token，并在一定程度上限制生成的OCR结果的最大长度。

3 通用OCR理论

在本工作中，我们提出了通用OCR理论，即OCR-2.0（如第1节所述），以促进OCR领域的进步。基于这一新理论，我们介绍了一种新型的OCR模型（GOT）。在本节中，我们将介绍模型的技术细节，包括框架、多阶段训练策略及相应数据引擎。

3.1 框架

如图2所示，GOT由三个模块组成，即图像编码器、线性层和输出解码器。线性层充当连接器，映射视觉编码器和语言解码器之间的通道维度。我们在优化整个GOT模型时采用了三个主要步骤。首先，我们进行纯文本识别任务以预训练视觉编码器。为了提高训练效率并节省GPU资源，我们选择了一个小型解码器来向编码器传递梯度。在此阶段，我们将包含场景文本和文档级别字符的手动图像输入模型，使编码器能够获取这两种最常用字符的编码能力。在下一阶段，我们将训练好的视觉编码器连接到一个新的更大的解码器上，形成GOT的架构。我们准备了大量更通用的OCR数据（例如，乐谱、数学/分子公式和几何形状），以扩大此阶段的OCR-2.0知识。在最后阶段，我们打算进一步提高GOT的泛化能力和适用性。具体来说，生成并添加了细粒度和多裁剪/页合成数据，以便GOT支持区域提示OCR、巨大图像OCR和批量PDF OCR特性。

3.2 预训练OCR专用的视觉编码器

如前所述，GOT采用了编码器-解码器结构。受到LVLMs设计的启发，解码器可以通过一个经过良好训练的语言模型来初始化。然而，我们没有找到适合OCR-2.0模型的预训练编码器，所以必须自己训练一个。我们希望新的OCR编码器能够在各种输入形状（包括切片和整页）的常见场景和文档文本识别中表现出色。

3.2.1 视觉编码器的生成

我们选择的编码器结构是VitDet（基础版本，约8000万参数），因为它的局部注意力机制可以大大降低高分辨率图像的计算成本。我们遵循Vary-tiny设置来设计编码器的最后两层，这将把一个1024×1024×3的输入图像转换为256×1024的图像token。然后，这些图像token通过一个1024×768的线性层投影到语言模型（OPT-125M）的维度。与仅关注相对单一输入形状下单个文档任务的Vary编码器不同，我们在预训练过程中结合了自然场景和裁剪的切片。在预处理阶段，每种形状的图像都被直接调整为1024×1024的正方形，因为正方形可以妥协地适应各种纵横比的图像。

3.2.2 编码器预训练的数据引擎

在这样一个编码器预训练阶段，我们使用了大约500万图像-文本对，包括300万场景文本OCR数据和200万文档OCR数据。它们的获取方法如下：

对于自然场景数据，英文和中文图像分别从Laion-2B和Wukong数据集中采样。然后，使用PaddleOCR工具捕捉这些多样化真实场景中的伪Ground Truth。总体而言，我们获得了200万数据，其中一半是中文，一半是英文。对于文本Ground Truth，我们执行两种类型的处理：1）移除边界框，并按从上到下、从左到右的顺序组合每个文本内容。2）根据边界框从原始图像中裁剪文本区域，并将其保存为图像切片。后者方法允许我们获得另外100万切片型图像-文本对。

对于文档级别的数据，我们首先从Common Crawl收集开源PDF风格的文件，并使用Fitz Python包提取相应的密集文本内容。在这个过程中，我们获得了120万全页PDF风格的图像-文本对和80万图像切片数据。这些切片数据，包括行级和段落级，是从PDF图像中通过解析的边界框裁剪出来的。

3.3 通过多任务联合训练扩展OCR-2.0知识

3.3.1 GOT的最终架构

在视觉编码器的预训练步骤之后，我们将其连接到一个具有更强能力的更大语言模型，以构建GOT的最终架构。这里，我们选择了5亿参数的Qwen作为解码器，因为它参数相对较少，同时融入了多种语言的先验知识。连接器（即线性嵌入层）的维度被调整为1024×1024，以匹配Qwen-0.5B的输入通道。因此，GOT拥有大约5.8亿参数的无缝编码器-解码器范式，这使得它更加节省计算资源，并且更容易部署在4G内存的消费级GPU上。编码器的高压缩率（1024×1024光学像素压缩至256个图像标记）为解码器生成新标记节省了大量的标记空间。同时，解码器令人满意的解码上下文长度（我们使用大约8K的最大长度）确保了GOT可以在密集场景下有效地输出OCR结果。

3.3.2 联合训练的数据引擎

为了向GOT注入充足的OCR-2.0知识，而不是上述提到的普通OCR数据，我们在这一阶段仔细探索了几种合成方法和数据引擎，如图3所示。接下来我们将深入探讨每种类型合成数据的细节。

普通OCR数据 我们使用第3.2.2节中提到的数据的80%作为普通OCR数据。为了进一步增强GOT的鲁棒性，我们还增加了手写文本识别子任务，涉及不同语言的信件和日记中各种风格的手写。我们收集了中文CASIA-HWDB2、英文IAM和挪威NorHand-v3数据集以满足我们的需求。对于原始的行级切片格式的图像-文本对，6至8对被分组并随机粘贴到空白文档页面上，以实现长文本手写识别并提高训练效率。

Mathpix-markdown格式化数据 保持光学内容格式对于维持输出结果的强可读性至关重要，尤其是对于数学公式和表格。为此，我们使用多种方法尽可能多地收集格式化数据。数据收集和生产的详细信息如下：

数学公式。我们在Arxiv上爬取了大量LATEX源文件(.tex)，从中提取了约1百万个公式片段。接着，我们将公式源转换为Mathpix格式，并使用Chrome驱动调用Mathpix-markdown-it工具将源渲染为HTML格式。然后将HTML文件转换为SVG，并保存为PNG图像。我们发现这种方法比直接使用LATEX快20倍以上。
分子公式。我们首先下载包含2百万smile源的ChEMBL_25文件。然后，我们使用Mathpix-markdown-it工具和rdkit.Chem包收集了约1百万个分子公式图像-文本对。
表格。从爬取的.tex文件中，我们提取了约30万个表格源，并将其渲染为图像。由于高级表格更好的渲染效果，我们直接使用LATEX作为渲染工具，而非Mathpix-markdown-it。
全页数据。使用Nougat方法，我们获得了约50万对英文markdown PDF-文本对。此外，按照Vary的方法，我们又收集了50万对中文markdown数据。我们将这些内容转换为Mathpix格式。除此之外，我们还额外添加了20万条内部数据，这些数据直接使用Mathpix标注，包括书籍、论文和财务报告。

更通用的OCR数据 我们希望GOT能够处理更广泛的光学人工“字符”。为此，我们收集了三个相关的挑战性任务并生成了相应的数据。这些任务分别是乐谱、几何图形和图表。

乐谱。音乐是文化遗产的重要组成部分，光学音乐识别在实现乐谱的自动识别和转录方面发挥着重要作用。我们选择了GrandStaff数据集作为渲染源。这个多声部乐谱数据集提供了音乐摘录的Humdrum **kern转录。除了现有的大约10万个图像-文本样本，我们还提取了一些文本样本，通过Verovio Python包重新渲染。我们主要添加了从白色到真实纸张样式的背景，并随机添加了标题和作者信息。请注意，由于我们没有相关领域的专业人士，不知道如何将单系统乐谱组合成完整页面，因此我们只渲染了单系统乐谱。渲染后，我们收集了约50万个样本。
几何图形。几何能力是LVLMs的关键能力之一，也是通向AGI的必要步骤。我们期望GOT能够将光学几何元素转换为TikZ文本格式。TikZ包含了一些简洁的命令来生成基本的几何元素，这些命令可以使用LATEX编译。我们使用TikZ风格的点和线，利用最简单的点线空间关系构造简单的基本几何形状（如圆、矩形、三角形和复合形状）以及简单的函数曲线（如直线、抛物线、椭圆、双曲线等）。通过这种方法，我们获得了大约100万个几何TikZ数据。当然，几何渲染是复杂的，目前的工作只是一个初步尝试。GOT目前只能识别基本的几何形状，但我们相信随着合成数据技术和OCR-2.0的发展，未来的模型将能够识别复杂的几何形状。
图表。图表在多个研究领域中的数据分析和数据可视化中至关重要。所提出的GOT将图表结构提取子任务称为“图表OCR”，即将图表图像上的视觉知识（如标题、来源、X轴标题、Y轴标题和数值）转换为以表格或Python字典格式呈现的可编辑输出。按照OneChart的方法，图表图像-文本对使用Matplotlib和Pyecharts工具渲染。由于GOT只是一个OCR模型，我们不需要图表中的元素在语义上相关。因此，我们只是从开放访问的NLP语料库中随机抽取实体文本（用于标题、来源、X轴标题、Y轴标题等）。数值是控制分布下的随机数。通过这种方法，我们获得了200万个图表数据，其中一半来自Matplotlib，另一半来自Pyecharts。

3.4 通过后训练解码器定制新的OCR功能

在通过上述两个步骤压缩了多样化的OCR-2.0光学信号的一般视觉信息后，GOT已经准备好在各种场景中执行图像级别的OCR任务。基于这个感知敏锐的视觉编码器，GOT可以轻松调整以满足用户对输入和输出的需求。在这里，我们通过仅后训练解码器部分来定制GOT，以启用三个新功能，即细粒度OCR、多页OCR和动态分辨率OCR。

3.4.1 细粒度数据引擎用于交互式OCR

作为一种高互动性的功能，细粒度OCR是由空间坐标或颜色控制的区域级视觉感知。用户可以在问题提示中添加框坐标（框引导OCR）或颜色文本（颜色引导OCR），以请求识别感兴趣的区域（RoI），避免输出其他无关字符。对于自然界的细粒度OCR，源图像和注释来自开源数据集，包括RCTW、ReCTS、ShopSign和COCO-Text数据集。上述数据集提供了文本边界框，因此我们可以直接使用它们生成细粒度（区域/颜色提示）OCR数据。

对于文档级别的细粒度OCR，我们遵循Fox的方法，从下载的PDF文件中过滤掉扫描格式的部分，并使用Python包（如Fitz/PDFminer）解析剩余部分。我们记录了页面级别的图像、每行/段落的边界框及其对应文本，以生成框引导OCR子任务的地面实况。对于此类任务，每个坐标值首先归一化，然后放大1000倍。对于颜色引导任务，我们选择最常见的颜色（红、绿、蓝）作为框的颜色，并在原始图像上绘制相应的边界框。总体而言，我们收集了约60万个样本。

3.4.2 多裁剪数据引擎用于超大图像OCR

GOT支持1024×1024的输入分辨率，这对于常见的OCR任务（如场景OCR或A4页面PDF OCR）来说已经足够。然而，对于某些场景下的巨幅图像，例如两页PDF水平拼接（阅读论文时常见的情况），需要动态分辨率。得益于我们高效的压缩率编码器，GOT在大滑动窗口（1024×1024）下实现了动态分辨率，确保模型能够以可接受的图像标记数量完成极端分辨率的OCR任务。我们使用InternVL-1.5的裁剪方法，最大瓷砖数达到12。超分辨率图像使用上述提到的单页PDF数据合成，包括水平和垂直拼接。通过这种方法，我们总共获得了50万个图像-文本对。

3.4.3 多页数据引擎用于批量PDF文件OCR

对于OCR任务，使用“for循环”进行多页处理是合理的。我们为GOT引入了多页OCR（无“for循环”）功能，这是因为一些格式化的PDF数据难以分页（以获得完全与每页不兼容的文本），从而进一步扩展规模，例如Arxiv中的.tex文件。我们希望通过GOT，研究人员不再需要担心PDF地面实况的分页问题（如Nougat），因为他们可以直接在多页上进行训练。为了实现这一功能，我们从Mathpix格式化的PDF数据中随机抽取2至8页，并将它们合并成一个单独的OCR任务轮次。每个选定的页面包含少于650个标记的文本，以确保总长度不超过8K。总体而言，我们生成了约20万个跨中英文页面的多页OCR数据。

4 实验

4.1 实施细节

我们使用8×8 L40s GPU来训练GOT。在预训练阶段，我们使用全局批次大小为128来优化所有模型参数，并训练3个周期。我们使用AdamW优化器和余弦退火调度器，初始学习率为1e-4。在这个阶段，最大标记长度设置为4096。在联合训练阶段，我们将最大标记长度扩展到6000，并使用与第一阶段相同的优化器设置训练模型1个周期。在最后一个后训练阶段，我们将最大标记长度扩展到8192，以使模型支持多块/页OCR特性。在这个阶段，初始学习率为2e-5，周期设置为1。

在每次训练数据处理过程中，从前一阶段采样80%的数据用于下一阶段，以确保在添加新功能时基本能力不会下降。

4.2 主要结果

在本节中，我们验证了GOT在5种不同OCR任务上的表现，包括：1) 普通文档OCR；2) 场景文本OCR；3) 细粒度文档OCR；4) 格式化（Mathpix markdown）文档OCR；5) 更通用字符OCR。请注意，每个基准测试的数据都经过严格的文本相似性过滤，以确保其未包含在训练数据中。以下是每个测试基准的来源和模型性能分析。

4.2.1 普通文档OCR性能

我们使用开源的Fox基准测试GOT在中文和英文PDF OCR上的表现。我们使用的指标是OCR任务中常用的，即编辑距离、F1分数、精确率、召回率、BLEU和METEOR。由于文档文本较长，我们使用词级分割来计算每个指标。如表1所示，尽管只有5.8亿参数，GOT在文档纯文本OCR上仍取得了先进的表现，证明了其优秀的PDF文本感知和识别能力。

4.2.2 场景文本OCR性能

我们收集了400张自然图像，其中一半为中文，一半为英文，作为场景文本OCR的基准。该基准中的所有地面实况都是手动校正的。由于场景图像中的文本相对较短，我们使用字符级分割来计算各种指标。如表2所示，可以看到GOT在自然图像上也表现良好，展示了模型在大多数基本OCR任务（包括文档和场景文本）上的优秀性能。

4.2.3 格式化文档OCR性能

将光学PDF图像转换为类似markdown的格式是OCR模型的一个重要功能。为了验证GOT的这一能力，我们精心准备了90页样本作为高质量基准。该基准包含中文和英文文档页面，首先通过Mathpix生成伪标签，然后手动校正错误。如表3所示，单尺度（1024×1024）的GOT可以产生令人满意的结果。当我们使用多裁剪推断时，GOT的性能进一步提升，特别是在处理带有小文本的公式和表格时。这些结果证明了GOT在格式化输出文档上的有效性。此外，动态分辨率方案在处理更高分辨率图像时是一个不错的选择。

4.2.4 细粒度OCR性能

我们报告了GOT在细粒度OCR任务上的指标。如表4所示，GOT在基于边界框和基于颜色的参照OCR任务上整体表现优于Fox，表明我们的模型具备出色的交互式OCR能力。

4.2.5 更通用OCR性能

我们使用乐谱、几何图形和图表基准来验证GOT在更通用OCR任务上的表现。对于前两项任务，我们分别渲染了100个和180个额外样本作为基准，如表3所示，GOT在这类新的OCR任务上仍然表现良好。对于图表OCR，我们使用结构提取版本的ChartQA和PlotQA作为基准。如表5所示，GOT的图表OCR能力甚至远超专门的图表模型和流行的LVLMs。所有结果都证明了我们的模型在更通用OCR任务上的有效性。

5 结论

本文介绍了一种初级的OCR-2.0模型，该模型在结构上比OCR-1.0系统更简单，比LVLMs更专注于纯OCR任务，并且表现出优越的性能。OCR-2.0将各种泛OCR任务整合到一个模型中，是模型设计、数据工程和应用场景中一个有价值的研究方向。我们希望简单、优雅、有效且有前景的GOT OCR-2.0模型能够吸引更多人关注此类任务。