PP-ChatOCRv3新升级：多页PDF信息抽取支持自定义提示词工程，拓展大语言模型功能边界

原创

已于 2025-03-31 11:39:33 修改 · 1.5k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#飞桨 #人工智能 #paddlepaddle #DeepSeek #百度

于 2025-03-31 11:35:07 首次发布

文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月，飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3，充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势，实现了高效的文本图像信息抽取。
近期，飞桨研发团队对飞桨低代码开发工具PaddleX中文本图像智能产线PP-ChatOCRv3进行升级，一方面实现了基于标准OpenAI接口的大语言模型调用，支持不同类型大模型灵活更换，另一方面针对文本图像信息抽取，丰富了自定义提示词工程的能力，从而为文本图像信息抽取注入新动力。

在这里插入图片描述
PP-ChatOCRv3 系统流程图

PP-ChatOCRv3进阶使用传送门
https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/practical_tutorials/document_scene_information_extraction(deepseek)_tutorial.md

本次升级具体特色功能如下：

新模型可快速适配多页 PDF 文件，高效抽取信息

由于大语言模型的推理时间相对较长，从多页 PDF 文件中抽取信息往往成本较高。
然而，PP-ChatOCRv3 集成了向量检索技术，先从 PDF 中筛选出与查询信息相关的内容，再借助大语言模型进行信息抽取，有效提升了处理效率。同时为了有效节约视觉特征和建立向量库的时间成本，PP-ChatOCRv3提供了数据缓存加载方法。在完成初次视觉特征和向量库建立后，后续的信息抽取过程即可基于缓存数据进行，有效的避免了频繁的视觉推理和建立索引库过程