文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势,实现了高效的文本图像信息抽取。
近期,飞桨研发团队对飞桨低代码开发工具PaddleX中文本图像智能产线PP-ChatOCRv3进行升级,一方面实现了基于标准OpenAI接口的大语言模型调用,支持不同类型大模型灵活更换,另一方面针对文本图像信息抽取,丰富了自定义提示词工程的能力,从而为文本图像信息抽取注入新动力。

PP-ChatOCRv3 系统流程图
PP-ChatOCRv3进阶使用传送门
https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/practical_tutorials/document_scene_information_extraction(deepseek)_tutorial.md
本次升级具体特色功能如下:
新模型可快速适配多页 PDF 文件,高效抽取信息
由于大语言模型的推理时间相对较长,从多页 PDF 文件中抽取信息往往成本较高。
然而,PP-ChatOCRv3 集成了向量检索技术,先从 PDF 中筛选出与查询信息相关的内容,再借助大语言模型进行信息抽取,有效提升了处理效率。同时为了有效节约视觉特征和建立向量库的时间成本,PP-ChatOCRv3提供了数据缓存加载方法。在完成初次视觉特征和向量库建立后,后续的信息抽取过程即可基于缓存数据进行,有效的避免了频繁的视觉推理和建立索引库过程

最低0.47元/天 解锁文章
1823

被折叠的 条评论
为什么被折叠?



