DocLayout-YOLO,让多样性文档布局检测更快、更准、更强

该文章已生成可运行项目,

 布局检测是文档解析领域的核心任务之一,目标是精准定位文档中不同类型的元素(正文、标题、表格、图片等)。尽管布局检测已经研究很多年,但现有的布局检测算法多关注在论文类型的文档,当面对多样性的文档(如教材、考题、研报等)时,其检测效果还是不及预期。

上海人工智能实验室在2024年7月份开源的 PDF-Extract-Kit 中提供了使用多样性文档微调的 LayoutLMv3 模型,在众多类型的文档上均取得了不错效果,但其推理速度相对较慢。为了满足实时高质量的推理需求,作者团队近日推出全新布局检测模型 DocLayout-YOLO其推理速度相比于LayoutLMv3提升一个数量级,在A100上每秒可以处理85.5个页面,检测结果也更加精准。一起来看看。

DocLayout-YOLO GitHub主页:https://github.com/opendatalab/DocLayout-YOLO

DocLayout-YOLO 论文:https://arxiv.org/abs/2410.12628

DocLayout-YOLO Demo体验:https://huggingface.co/spaces/opendatalab/DocLayout-YOLO

一、DocLayout-YOLO技术解析

DocLayout-YOLO 

本文章已经生成可运行项目
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值