用户的声音 | 文档结构化信息提取方案测评：LLM、开源模型部署与云端API，谁是合适选择？

原创

于 2025-02-19 10:30:00 发布 · 2.1k 阅读

·

62

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大模型 #OCR #大数据 #Markdown

文档预处理之文本化

近日，我们收到来自专业用户的使用心得，浅析结构化信息提取技术、技术选型及一些个人测试。

结构化信息提取的重要性

数据作为大模型时代的核心生产资料，其结构化处理能力直接影响AI系统的实用价值。尽管知识图谱、RAG等技术依赖海量文本资源，但现实中的历史档案、法律文书等重要数据多以扫描件、图像等非结构化形式存在，导致信息抽取、语义解析等环节面临显著技术障碍。

当前结构化信息提取技术虽呈现多样化发展，但对于开发者而言，结构化信息提取的“落地”与“可用性”才是真正的考验，研究论文中的指标和高精度模型在生产环境中可能面临性能瓶颈、成本过高、部署难度大等现实挑战。

本文将梳理主流技术方案，立足实际需求，结合一系列实测数据与实践经验，评估各方法在不同场景下的表现与优劣势。从技术指标到生产可行性，我们将为开发者提供一份实用的兼顾算法效能与部署成本的参考指南。

评价标准

作为测评，首先确定标准，目标输出格式设定为markdown。

Markdown 作为一种增强的文本格式，相较纯文本而言，为数据保有了其中固有的结构（表格、标题、列表等）。同时作为大模型原生支持的文本格式，使用markdown作为输入格式也能让输出效果更好。

对于测试结果要求，首先，最重要的标准是结果可用。我们定了3个正确性指标：其中，文本准确性是所有文本解析的基础，有研究[1]指出，解析正确性将显著影响RAG的效果；表格准确性则是一个难点，尤其是有多个单元格合并的情况下，很难识别准确；标题正确性主要考察标题层级是否正确。其次需要评估识别速度、成本等问题。考虑到有些组织内信息不能上传外网，添加了隐私性，即能否本地部署这一指标。最后考虑到有些方法路径尚不成熟，部署复杂度大，因此能否便捷使用也是需要考察的点。最终得到的评价表格如下:

评价表格:*

名称

访问地址

文本正确性

表格正确性

标题正确性

识别速度

成本

本地部署

便捷使用

由于参与后处理的是LLM，所以关于文本识别准确有一定容错，如果需要关于正确性的量化评价，可以采用Markdown Tester。

测评

使用的待测试pdf：随机选取的一份上交所上市公司的2023年年报，全文193页。

金融年报是电子文档中相对复杂的一类，文字密度大，表格复杂度高，标题层级多，对模型能力有较大考验。遂选取之作为测试素材。

基于大模型的识别方案举例

市面上流行的几个开源pdf转markdown方法，大体可以分为两种，一类走传统版面分析+公式表格识别+OCR方案，另一类则是走视觉大模型路线。

利用大模型执行pdf转markdown算是一种逻辑上比较容易的办法，借助大模型本身强大的视觉识别能力，进行力大砖飞的转换。

从原理上，这种方法可以自如地进行转换，同时可以在转换过程中保留尽可能多的视觉信息，基础的诸如标题层级，进阶的还可以对图片进行一定的语义解释。

<

最低0.47元/天解锁文章

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。