告别蒸馏依赖:腾讯POINTS-Reader端到端文档OCR模型革新解析

告别蒸馏依赖:腾讯POINTS-Reader端到端文档OCR模型革新解析

【免费下载链接】POINTS-Reader 腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本 【免费下载链接】POINTS-Reader 项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

在数字化浪潮席卷的今天,PDF文档作为信息载体的核心地位愈发凸显,但如何精准高效地将其内容转化为可编辑文本,始终是技术领域的一大难题。传统文档解析方案要么面临格式保留不全的困扰,要么受制于多模型拼接的复杂流程。近日,腾讯技术工程团队推出的POINTS-Reader模型,凭借创新的两阶段自迭代训练方案,在不依赖外部蒸馏数据的情况下,实现了端到端文档解析的突破性进展。该成果已被EMNLP 2025主会收录,相关模型与技术细节已全面开源,仓库地址为https://gitcode.com/tencent_hunyuan/POINTS-Reader。

文档解析技术长期存在三大痛点:传统解析工具如PyMuPDF难以处理数学公式等复杂元素,Pipeline方案如MinerU受限于多模型协同效率,而现有端到端方案又深陷高质量标注数据匮乏的泥潭。POINTS-Reader创新性地提出"统一格式预热+迭代自我改进"的训练框架,通过合成数据奠基与真实数据进化的双轮驱动,彻底摆脱了对外部蒸馏数据的依赖,为文档解析领域开辟了全新路径。

图片展示了带有对话气泡图标的绿色‘POINTS-Reader’文字,是腾讯技术推出的端到端文档OCR模型的标志。 如上图所示,绿色对话气泡包裹的"POINTS-Reader"标志直观体现了模型的交互特性。这一设计隐喻着模型如同智能助手般直接理解文档图像并输出精准文本,为用户提供零门槛的文档解析体验。

在核心架构设计上,POINTS-Reader展现出惊人的简洁性与高效性。模型沿用POINTS1.5的基础架构,仅将语言模型组件替换为更轻量的Qwen2.5-3B-Instruct,却实现了性能跃升。其输入输出设计堪称典范:固定提示词搭配文档图像作为输入,直接输出最终提取文本,全程无需任何后处理环节。这种"即输即得"的设计极大降低了技术使用门槛,使普通用户也能轻松获得专业级解析效果。

性能表现方面,POINTS-Reader在OmniDocBench基准测试中交出了令人瞩目的答卷。该模型已全面支持中英文双语文档解析,在包含单栏/双栏布局、数学公式、复杂表格等多场景测试中均展现出卓越能力。尤其值得关注的是其处理效率,通过采用6亿参数的中等规模ViT与SGLang推理框架的深度优化,模型实现了高吞吐量处理,为大规模文档解析应用奠定了坚实基础。

对比表格展示了不同文档OCR方法(含POINTS-Reader-3B)在OverallEdit、TextEdit、FormulaEdit等指标上的中英文性能表现,红色框标注POINTS-Reader-3B的结果。 如对比表格所示,红色框标注的POINTS-Reader-3B结果在OverallEdit、TextEdit等关键指标上全面领先。这一数据充分证明了两阶段自迭代训练方案的有效性,为文档解析技术树立了新的性能标杆。

POINTS-Reader的革命性突破源于其独创的两阶段训练机制。在统一格式预热阶段,模型首先通过LLM生成包含文本、公式、表格的多样化内容,经规则过滤后渲染为图像-文本对,以此对基础视觉语言模型进行初始化训练。这一阶段赋予模型标准化的文档元素解析能力,为后续进化奠定基础。而迭代自我改进阶段则构建了"标注-过滤-再训练"的闭环体系:利用预热模型标注真实文档数据集,通过多维度规则过滤(文本F1值校验、表格结构验证、公式语法检查)筛选高质量样本,再用于模型迭代优化。这种自举式学习机制使模型性能随迭代次数持续提升,数据质量与数量形成正向循环。

该技术方案的核心价值在于三大创新:一是完全消除对外部蒸馏数据的依赖,规避了教师模型偏见传递问题;二是构建自动化数据-模型协同进化闭环,实现无人工标注条件下的持续进步;三是通过规则化过滤确保数据质量,使模型在真实场景中保持高精度解析能力。这些特性不仅适用于文档解析领域,更为通用视觉语言模型的训练提供了可复用的方法论。

展望未来,POINTS-Reader团队计划进一步扩展模型能力边界,包括支持更多语言种类、优化复杂图表解析能力以及增加vLLM推理框架支持等。随着技术的不断迭代,我们有理由相信,POINTS-Reader将在学术研究、企业文档管理、数字图书馆建设等诸多领域发挥重要作用。其开源特性更将赋能整个技术社区,推动文档智能解析技术的创新发展,最终让每个人都能轻松驾驭海量文档信息。

POINTS-Reader的成功印证了"大道至简"的技术哲学——通过精妙的训练机制设计,用轻量级模型实现超越性性能。这种不依赖堆砌资源、注重方法论创新的研发思路,为人工智能技术的可持续发展提供了宝贵启示。随着模型的开源与迭代,我们期待看到更多基于这一技术的创新应用,共同推动文档智能处理领域的革命性进步。

【免费下载链接】POINTS-Reader 腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本 【免费下载链接】POINTS-Reader 项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值