PP-ChatOCRv3新升级:多页PDF信息抽取支持自定义提示词工程,拓展大语言模型功能边界

文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势,实现了高效的文本图像信息抽取。
近期,飞桨研发团队对飞桨低代码开发工具PaddleX中文本图像智能产线PP-ChatOCRv3进行升级,一方面实现了基于标准OpenAI接口的大语言模型调用,支持不同类型大模型灵活更换,另一方面针对文本图像信息抽取,丰富了自定义提示词工程的能力,从而为文本图像信息抽取注入新动力。

在这里插入图片描述
PP-ChatOCRv3 系统流程图

PP-ChatOCRv3进阶使用传送门
https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/practical_tutorials/document_scene_information_extraction(deepseek)_tutorial.md

本次升级具体特色功能如下:

新模型可快速适配多页 PDF 文件,高效抽取信息

由于大语言模型的推理时间相对较长,从多页 PDF 文件中抽取信息往往成本较高。
然而,PP-ChatOCRv3 集成了向量检索技术,先从 PDF 中筛选出与查询信息相关的内容,再借助大语言模型进行信息抽取,有效提升了处理效率。同时为了有效节约视觉特征和建立向量库的时间成本,PP-ChatOCRv3提供了数据缓存加载方法。在完成初次视觉特征和向量库建立后,后续的信息抽取过程即可基于缓存数据进行,有效的避免了频繁的视觉推理和建立索引库过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值