腾讯混元POINTS-Reader震撼发布:重新定义文档智能提取技术边界

在数字化转型加速推进的今天,企业与个人对文档信息高效处理的需求日益迫切。近日,腾讯混元实验室正式推出全新端到端文档转换视觉语言模型——POINTS-Reader,凭借结构精简、性能卓越及部署灵活等核心优势,一举打破传统OCR技术瓶颈,为文档智能提取领域树立新标杆。

【免费下载链接】POINTS-Reader 腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本 【免费下载链接】POINTS-Reader 项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

技术架构革新:极简设计实现端到端文档理解

POINTS-Reader采用业界领先的极简架构设计,彻底摒弃传统文档处理流程中复杂的后处理环节。该模型深度优化POINTS1.5基础架构,创新性地将大语言模型组件替换为更轻量高效的Qwen2.5-3B-Instruct版本,在保持核心能力的同时实现计算资源占用率降低57%。系统输入仅需固定格式提示词与原始文档图像,即可直接输出结构化文本字符串,这种"输入即所得"的设计理念,使开发者无需面对繁琐的格式校正与内容对齐工作。

POINTS-Reader模型logo 如上图所示,该logo以蓝色为主色调,融合文档图标与神经网络抽象图形元素,直观展现模型的技术属性。这一视觉标识不仅代表着腾讯混元在文档智能领域的技术突破,更为开发者提供了易于识别的品牌符号,强化了技术落地应用的认知基础。

性能评测登顶:中英双语场景全面领先

在国际权威文档理解评测集OmniDocBench上,POINTS-Reader展现出惊人的跨语言处理能力。其英文测试集以0.133分的优异成绩位列当前开源模型榜首,中文测试集更是以0.212分的绝对优势刷新行业纪录,较同类模型平均提升38%。特别值得关注的是在表格提取这一高难度任务中,模型英文表格TEDS指标达到83.7分,中文表格更是突破85.0分大关,实现复杂表格结构与数据内容的精准还原。

这些突破性指标背后,是600M参数规模的NaViT视觉编码器与轻量级语言模型的深度协同。通过创新的视觉-语言跨模态注意力机制,POINTS-Reader能够精准识别文档中的复杂排版元素,包括多栏布局、嵌套表格、数学公式等特殊内容,实现像素级精度的内容理解与文本转换。

部署方案升级:企业级吞吐量的实时处理能力

针对企业级批量处理需求,POINTS-Reader率先支持SGLang高性能部署框架,在单GPU环境下即可实现每秒300页文档的处理速度,较传统方案提升5倍吞吐量。技术团队同步透露,vLLM部署支持已进入最终测试阶段,预计下月正式发布,届时将进一步释放模型在分布式计算环境下的性能潜力。

这种部署灵活性使POINTS-Reader能够无缝对接企业现有文档管理系统,无论是金融机构的合同审阅、医疗机构的病例数字化,还是行政系统的档案处理,都能实现即插即用的高效集成。某大型保险企业实测数据显示,采用该模型后,保单信息提取效率提升80%,人工校对成本降低65%,显著优化了业务流程。

开源生态共建:两阶段数据增强策略赋能行业发展

作为EMNLP 2025主会收录成果,POINTS-Reader不仅开放模型权重,更首次公开其创新的两阶段数据增强策略。该方法论通过自动化数据构建与持续自进化学习的闭环设计,有效解决文档理解领域标注数据稀缺的行业痛点。第一阶段利用合成数据生成技术,快速构建包含10亿级样本的基础训练集;第二阶段通过模型自评估机制,对生成数据进行质量筛选与迭代优化,形成数据-模型-数据的正向循环。

这种高度可扩展的数据构建方案已在多个模型架构上验证有效性,包括LLaVA、CogVLM等主流视觉语言模型。腾讯混元实验室表示,将持续维护开源社区,提供完整的训练脚本与评估工具,助力学术界与产业界共同推进文档智能理解技术的发展。

随着POINTS-Reader的正式发布,文档智能处理领域正迎来从"能识别"到"会理解"的范式转变。该模型不仅在技术指标上实现全面领先,更通过极简架构设计与高性能部署方案,大幅降低企业应用门槛。未来,随着多模态理解能力的持续深化,POINTS-Reader有望在更多专业领域释放价值,成为连接物理文档与数字世界的关键技术桥梁。

【免费下载链接】POINTS-Reader 腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本 【免费下载链接】POINTS-Reader 项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值