高性能文档解析引擎MinerU再升级,全方位刷新行业SOTA,全面助力AI Ready数据自由

随着人工智能大模型技术的迅速发展,挖掘高质量数据已经成为“AI下半场”竞争的焦点。独特、高质量、精心处理的语料库,将为构建真正强大可靠的通用人工智能提供核心壁垒和竞争优势。

此前,上海人工智能实验室(上海AI实验室)发布的智能文档语料解析引擎——MinerU2,作为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环,引发行业广泛关注,凭借其0.9B的精巧参数,和比肩72B主流大模型的文档提取能力,完美诠释了在高质量、精细化数据驱动下,轻量级模型也能爆发出超乎想象的应用潜力。

目前OpenDataLab团队已完成MinerU2.5的训练与微调工作,即将在各大社区开源,并同步上架最新在线产品,方便广大开发者与用户体验使用。

MinerU2.5更加聚焦于“真实可信”,对最容易“掉链子”的几类元素——表格、公式与列表的解析能力,进行了全方位能力增强,全面提升了准确性、解析速度、排版渲染及用户体验等方向的表现。

相比MinerU2,MinerU2.5的VLM参数规模提升至1.2B,但在团队的技术优化下,依旧能够在消费级显卡上流畅运行,并显著提升了解析精度与速度。其在文本、公式、表格和阅读顺序等核心维度上全面刷新SOTA,不仅超越了一系列知名开源工具,也在多个关键场景中显著超越了商用大模型。

当前,市面上的文档解析工具,要么速度较快但难以处理复杂文档,要么功能强大却频繁出现“幻觉”。MinerU 2.5独辟蹊径,采用首创的“二阶段”解析架构,同时支持原生分辨率处理,从根源上最大限度地降低了信息失真的概率,实现了对复杂文档又快又准的解析效果,在显著减少“幻觉”现象的同时,大幅提升了解析结果的可靠性。

具体来说,Miner2.5在复杂文档处理上的进步,体现在结构还原与语义理解的双重提升。它在页面检测阶段会先对文档元素进行更精确的定位,并在进入识别前完成适配性的裁剪与尺寸归一化,从源头减少误差;在表格解析中,不再依赖简单的边框检测,而是通过单元格与行列关系建模,完整还原跨行、跨列的合并信息,使结构更贴近原始布局;在列表和块级公式的处理上,新版模型引入了专门的处理通路和后处理策略,避免它们被错误识别为正文,从而保留层级与数学语义;在公式识别方面,MinerU2.5则强调检测与识别之间的语义传递,使还原后的结果既外观准确,又能忠实反映文档的真实语义,并方便后续检索、比对和编辑。同时,MinerU2.5的VLM通过对图像、插图与非文本区域的过滤,有效减少干扰和噪声,降低错分率,让关键信息更加集中,整体信息密度显著提高。

在使用体验方面,MinerU2.5新增了多项实用功能,其中包括对旋转或歪斜表格的自动校正。无论表格是旋转、模糊,还是结构复杂,它都能准确还原行列结构,将内容完整清晰地提取出来,并直接生成整洁的csv或markdown等格式的表格,大幅提升文档处理效率。同时,MinerU2.5还大幅优化了解析后内容的排版与渲染能力,让用户可以更直观、清晰地查看解析结果。此外,MinerU2.5新增支持VLLM推理框架,进一步提升了解析速度和兼容性,能够更好地适配多种硬件环境。

在硬件生态方面,OpenDataLab团队正持续推进国产化适配与加速工作,力求在保持性能优势的同时,构建更加开放、更加多元、更完善的硬件应用生态。目前,MinerU2系列已完成对华为昇腾、沐曦、摩尔线程等国产硬件的适配工作,并持续对寒武纪和海光等国产化硬件进行适配改造。与此同时,团队与DeepLink联合攻关,基于DeepLink开放计算体系打通了多后端算力支持,实现了MinerU2系列在国产算力平台的千卡级别生产环境中的稳定部署和高效运行。

DeepLink 人工智能开放计算体系,旨在搭建对硬件芯片与深度学习软件框架进行适配的桥梁,共建开放的软硬件适配生态。DeepLink基于dlinfer使得实验室自研高效推理框架LMDeploy具备多后端算力支持能力,并已完成minerU、Intern、qwen等系列模型适配。

DeepLink.org.cnhttps://deeplink.org.cn/home

https://github.com/DeepLink-org/dlinferhttps://github.com/DeepLink-org/dlinfer

在软件生态方面,MinerU已经完成了对主流Agent平台如 Dify、n8n、扣子、FastGPT的插件开发与适配支持,同时为知名AI应用工具钉钉、Cherry Studio、Sider等提供了技术服务,确保了其能够在多样化应用场景中的顺利接入和高效运行。未来,团队将继续拓展更广泛的软件生态,不仅涵盖更多国内外主流 AI 平台和开发工具,也将加强与垂直行业应用的深度融合,打造开放、兼容、可扩展的技术生态体系,以支持更丰富的应用场景和更高效的产业落地。

MinerU Dify 插件https://marketplace.dify.ai/plugins/langgenius/mineru

MinerU 扣子 插件https://www.coze.cn/store/plugin/7527957359730360354?from=plugin_card

MinerU n8n 插件https://www.npmjs.com/package/n8n-nodes-mineru

更多 MinerU2.5的开源信息与最新成果,欢迎持续关注OpenDataLab发布的动态。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值