日前,上海人工智能实验室(上海AI实验室)全面上线新一代文档解析大模型——MinerU2.5。作为MinerU系列的最新版本,MinerU2.5仅以1.2B参数规模,在布局检测、文本识别、表格识别、公式识别等核心任务上取得全面突破,在文档解析主流评测基准OmniDocBench、olmOCR-bench及Ocean-OCR上均取得优异成绩,超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等多模态通用大模型以及dots.ocr、MonkeyOCR、PP-StructureV3等文档解析专业模型和工具。
在解析精度和解析观感上,MinerU2.5的解析效果显著提升,解析质量逐步逼近人工标注效果,实现了从“综合领先”到“全面领跑”的跨越,更以1.2B的精巧参数在大规模语料提取等实际生产力场景中兼顾高精度与高效率,展现出真正的落地应用价值。
目前,MinerU在线产品已全面集成MinerU2.5文档解析大模型,并同步实现功能升级。此次迭代重点新增表格旋转识别、无线/少线表格解析及参考文献识别等能力;同时在中文公式、复杂数学公式及嵌套表格的提取与渲染方面进行了深度优化,显著提升了结果的准确性与可用性。通过本次升级,MinerU产品在科研、金融、教育等重点场景中展现出更强的适配性与支撑力,进一步拓宽了智能文档解析的应用边界,为高质量信息提取和RAG知识库构建提供了更加坚实的应用支撑。
技术报告:
https://arxiv.org/abs/2509.22186
开源项目:
https://github.com/opendatalab/MinerU
开源模型:
https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
在线使用:
https://mineru.net/OpenSourceTools/Extractor
从评测结果来看,在权威的OmniDocBench基准测试中,MinerU2.5取得结果最优(SOTA),在布局检测、文本识别、表格识别、公式识别等关键指标上超越Gemini 2.5-Pro、GPT-4o等国际顶尖模型,对比开源文档解析方案(如MonkeyOCR、PP-StructureV3),MinerU2.5在解析精度、结构完整性和格式自然度方面同样处于优势地位。相关评测结果已在团队最新公开的技术报告中发布。

▲OmniDocBench中的评测结果

▲OmniDocBench中的评测排名
为了保证模型能够轻松处理不同来源、不同难度、包含不同元素的文档,科研团队精细设计了文档解析数据引擎,为模型预训练和微调阶段提供多样性、高质量数据。针对文档解析的预训练阶段,团队考虑从文档多样性、元素多样性、中英文数量均衡保证预训练数据的多样性,并通过多阶段模型筛选保证数据质量。在模型微调阶段,团队提出了基于推理一致性的迭代挖掘策略,针对一阶段预训练模型挖掘困难样本,并结合智能化标注及专家修正保证数据足够复杂、精准,有效提升模型在复杂样本上的解析能力。最终模型在复杂排版、复杂公式及复杂表格上性能显著提升,在其他普通样本上解析精度达到人工标注员水平。

▲MinerU2.5 技术架构
在解析效率方面,MinerU2.5采用了QwenVL2系列的原生分辨率视觉编码器(675M)及0.5B的语言解码器,总参数量接近1.2B。在布局分析阶段,MinerU2.5将高分辨率文档图像下采样到1036*1036 从而实现高效解析。在内容识别阶段,MinerU2.5仅需将切割的小区域元素进行原生分辨率编码解析,解析速度快、精度高、幻觉少。配合vLLM参数优化及工程优化,MinerU2.5在消费级显卡NVDIA 4090(48G)上达到每秒1.7页的解析速度,远超其他大模型解析方案,让高质量、低成本的解析方案成为可能。
依托MinerU2.5文档解析大模型核心能力,MinerU在线产品全平台进行了升级。本次迭代重点新增表格旋转识别、无线/少线表格解析、跨格式文档无损复制及参考文献识别等能力,同时针对中文公式、复杂数学公式与复杂嵌套表格进行了深度优化。
上述所有新增功能已全面融入多格式导出(JSON / Markdown)、复制、翻译、收藏等重要功能,实现即开即用、无缝体验。此外,MinerU产品导出的JSON文件中,保留了完整的页眉、页脚、页码、脚注、侧边文本等信息,方便开发者进一步处理使用,显著提升了文档智能解析的精度与适用性。

▲在数学教材中的复杂公式解析任务中,传统方案常出现符号遗漏或结构破坏,而MinerU2.5能够准确识别长难公式,输出整洁的LaTeX代码,直接渲染为完整公式。

▲在金融领域,对于一份模糊并包含合并单元格的财报,传统模型往往输出结构散乱,而MinerU2.5能够完整保持原始表格结构,无缝衔接跨页信息,并直接导出整洁的Excel文件。

▲在学术论文的参考文献解析中,MinerU2.5不仅能够分割条目,还能精准提取作者、期刊、年份、DOI等元数据,输出为结构化JSON格式,远超其他方案的纯文本结果。
目前,MinerU2.5已同步上线HuggingFace、ModelScope及GitHub,提供模型下载、源码托管与在线Demo服务,全面支持科研人员、开发者和产业用户的多样化需求。

▲MinerU在线产品全线上新MinerU2.5文档提取大模型能力
在硬件生态建设方面,OpenDataLab团队坚持自主可控和开放协同并举,持续推进国产化适配和算力优化工作。当前,通过与DeepLink开展联合攻关,依托后者开放计算体系打通多后端算力通路,MinerU2.5系列能够在国产算力平台的千卡级生产环境中实现稳定部署和高效运行。MinerU2.5将与昇腾、沐曦、摩尔线程、寒武纪、海光等平台等国产算力平台完成深度适配,相关成果将以开源形式面向社会共享,同时针对高性能场景提供面向产业化的专业化支持。
面向多样化应用场景,MinerU已率先完成对Dify、N8n、扣子、FastGPT等主流Agent平台的插件开发与适配,并为钉钉、Cherry Studio、Sider等知名AI应用工具提供技术支持,保障其平稳接入与高效运行。下一步,团队将持续拓展国际国内主流平台和开发工具的适配覆盖,进一步加强与重点行业应用的深度融合,打造更加开放、兼容、可扩展的技术生态体系。
面向未来,MinerU将继续秉持“Tokenize Anything”的技术远景,持续拓展异构数据智能解析的广度与深度,加快推动数据向AI-Ready形态的高效转化。随着技术迭代与应用深化,分散复杂的多源数据价值将被更大程度激活,并为通用人工智能构筑坚实而高效的底层工具支撑。
1193

被折叠的 条评论
为什么被折叠?



