布局检测是文档解析领域的核心任务之一,目标是精准定位文档中不同类型的元素(正文、标题、表格、图片等)。尽管布局检测已经研究很多年,但现有的布局检测算法多关注在论文类型的文档,当面对多样性的文档(如教材、考题、研报等)时,其检测效果还是不及预期。
上海人工智能实验室在2024年7月份开源的 PDF-Extract-Kit 中提供了使用多样性文档微调的 LayoutLMv3 模型,在众多类型的文档上均取得了不错效果,但其推理速度相对较慢。为了满足实时高质量的推理需求,作者团队近日推出全新布局检测模型 DocLayout-YOLO,其推理速度相比于LayoutLMv3提升一个数量级,在A100上每秒可以处理85.5个页面,检测结果也更加精准。一起来看看。
DocLayout-YOLO GitHub主页:https://github.com/opendatalab/DocLayout-YOLO
DocLayout-YOLO 论文:https://arxiv.org/abs/2410.12628
DocLayout-YOLO Demo体验:https://huggingface.co/spaces/opendatalab/DocLayout-YOLO

最低0.47元/天 解锁文章
2683

被折叠的 条评论
为什么被折叠?



