TextIn文档树引擎，助力RAG知识库问答检索召回能力提升

原创

于 2024-08-13 09:45:00 发布 · 2k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#文档解析 #ocr #图像识别

TextIn团队的文档解析测评工具Markdown Tester在Github发布后，我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理，包括段落、表格、公式、阅读顺序等维度。

今天，我们将介绍另一项重要指标，也是业内面对的一项普遍性难点：标题识别，以及它如何影响数据清洗与RAG系统开发。

我们依旧从指标设计出发

Tester试用链接：https://github.com/intsig/markdown_tester

此前，我们在讨论段落检测维度的文章《所见即所得，赋能RAG：PDF解析里的段落识别与阅读顺序还原》（+link）中详细说明过识别率、召回率与F1的设计原理。

标题检测中，相关指标通过相似规则构建：标题识别率测量的是标题解析是否足够准确，即被识别为标题的项目中有多少是正确的；而标题召回率测量的是段落解析是否足够全面，能不能避免长文档中有没被找到的“漏网之鱼”；F1值是识别率和召回率的调和平均值，它综合考虑了这两个指标，用于评估文档解析的整体性能。

树状编辑距离的概念，可以参考《聊聊文档解析测评里的表格指标》（+link）。相对于表格树状结构，标题会更易于理解。凡长文档，大部分会包含多层级标题，将标题层级以树状结构的方式表达，并测量预测值与真值间的编辑距离，即可评判各层级标题的解析准确程度。

简而言之，如果解析产品将一篇论文中的二级标题检测为三级子标题，在这