随着人工智能大模型技术的迅速发展,挖掘高质量数据已经成为“AI下半场”竞争的焦点。独特、高质量、精心处理的语料库,将为构建真正强大可靠的通用人工智能提供核心壁垒和竞争优势。
此前,上海人工智能实验室(上海AI实验室)发布的智能文档语料解析引擎——MinerU2,作为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环,引发行业广泛关注,凭借其0.9B的精巧参数,和比肩72B主流大模型的文档提取能力,完美诠释了在高质量、精细化数据驱动下,轻量级模型也能爆发出超乎想象的应用潜力。
目前OpenDataLab团队已完成MinerU2.5的训练与微调工作,即将在各大社区开源,并同步上架最新在线产品,方便广大开发者与用户体验使用。
MinerU2.5更加聚焦于“真实可信”,对最容易“掉链子”的几类元素——表格、公式与列表的解析能力,进行了全方位能力增强,全面提升了准确性、解析速度、排版渲染及用户体验等方向的表现。

相比MinerU2,MinerU2.5的VLM参数规模提升至1.2B,但在团队的技术优化下,依旧能够在消费级显卡上流畅运行,并显著提升了解析精度与速度。其在文本、公式、表格和阅读顺序等核心维度上全面刷新SOTA,不仅超越了一系列知名开源工具,也在多个关键场景中显著超越了商用大模型。
当前,市面上的文档解析工具,要么速度较快但难以处理复杂文档,要么功能强大却频繁出现“幻觉”。MinerU 2.5独辟蹊径,采用首创的“二阶段”解析架构,同时支持原生分辨率处理,从根源上最大限度地降低了信息失真的概率,实现了对复杂文档又快又准的解析效果,在显著减少“幻觉”现象的同时,大幅提升了解析结果的可靠性。
具体来说,Miner2.5在复杂文档处理上的进步,体现在结构还原与语义理解的双重提升。它在页面检测阶段会先对文档元素进行更精确的定位,并在进入识别前完成适配性的裁剪与尺寸归一化,从源头减少误差;在表格解析中,不再依赖简单的边框检测,而是通过单元格与行列关系建模,完整还原跨行、跨列的合并信息,使结构更贴近原始布局;在列表和块级公式的处理上,新版模型引入了专门的处理通路和后处理策略,避免它们被错误识别为正文,从而保留层级与数学语义;在公式识别方面,MinerU2.5则强调检测与识别之间的语义传递,使还原后的结果既外观准确,又能忠实反映文档的真实语义,并方便后续检索、比对和编辑。同时,MinerU2.5的VLM通过对图像、插图与非文本区域的过滤,有效减少干扰和噪声,降低错分率,让关键信息更加集中,整体信息密度显著提高。

在使用体验方面,MinerU2.5新增了多项实用功能,其中包括对旋转或歪斜表格的自动校正。无论表格是旋转、模糊,还是结构复杂,它都能准确还原行列结构,将内容完整清晰地提取出来,并直接生成整洁的csv或markdown等格式的表格,大幅提升文档处理效率。同时,MinerU2.5还大幅优化了解析后内容的排版与渲染能力,让用户可以更直观、清晰地查看解析结果。此外,MinerU2.5新增支持VLLM推理框架,进一步提升了解析速度和兼容性,能够更好地适配多种硬件环境。

在硬件生态方面,OpenDataLab团队正持续推进国产化适配与加速工作,力求在保持性能优势的同时,构建更加开放、更加多元、更完善的硬件应用生态。目前,MinerU2系列已完成对华为昇腾、沐曦、摩尔线程等国产硬件的适配工作,并持续对寒武纪和海光等国产化硬件进行适配改造。与此同时,团队与DeepLink联合攻关,基于DeepLink开放计算体系打通了多后端算力支持,实现了MinerU2系列在国产算力平台的千卡级别生产环境中的稳定部署和高效运行。
DeepLink 人工智能开放计算体系,旨在搭建对硬件芯片与深度学习软件框架进行适配的桥梁,共建开放的软硬件适配生态。DeepLink基于dlinfer使得实验室自研高效推理框架LMDeploy具备多后端算力支持能力,并已完成minerU、Intern、qwen等系列模型适配。
DeepLink.org.cn
https://deeplink.org.cn/home
https://github.com/DeepLink-org/dlinfer
https://github.com/DeepLink-org/dlinfer
在软件生态方面,MinerU已经完成了对主流Agent平台如 Dify、n8n、扣子、FastGPT的插件开发与适配支持,同时为知名AI应用工具钉钉、Cherry Studio、Sider等提供了技术服务,确保了其能够在多样化应用场景中的顺利接入和高效运行。未来,团队将继续拓展更广泛的软件生态,不仅涵盖更多国内外主流 AI 平台和开发工具,也将加强与垂直行业应用的深度融合,打造开放、兼容、可扩展的技术生态体系,以支持更丰富的应用场景和更高效的产业落地。
MinerU Dify 插件
https://marketplace.dify.ai/plugins/langgenius/mineru
MinerU 扣子 插件
https://www.coze.cn/store/plugin/7527957359730360354?from=plugin_card
MinerU n8n 插件
https://www.npmjs.com/package/n8n-nodes-mineru
更多 MinerU2.5的开源信息与最新成果,欢迎持续关注OpenDataLab发布的动态。
9187

被折叠的 条评论
为什么被折叠?



