【ChatOCR】OCR+LLM定制化关键信息抽取（附开源大语言模型汇总整理）

原创

已于 2023-11-03 16:54:20 修改 · 1.7w 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#ocr #paddlepaddle #大语言模型 #人工智能 #文心一言 #关键信息提取 #python

于 2023-11-03 16:32:41 首次发布

文章探讨了百度飞桨团队的PP-ChatOCR如何结合文心一言大语言模型进行图像关键信息提取，介绍了存在的问题如场景识别不准确和解决方案，如取消场景识别、多轮对话和in-contextlearningprompt。文中还列举了多个开源和商业化的大语言模型及其应用实例。

目录

背景
技术方案
存在的问题及解决思路
关键信息提取结果
其他解决方案
开源大模型汇总

背景

最近百度飞桨团队推出了一款基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR。它结合了OCR文字识别和文心一言大语言模型，可以在多种场景下提取图像中的关键信息，效果非常惊艳。而传统的OCR识别技术的准确率容易受到多种因素影响，例如图像质量、字符布局、字体样式等。但当我们将OCR技术与大语言模型相结合时，可以避免繁杂的规则后处理，提升泛化能力，从而能够更智能、准确地理解和利用文本信息。（官方说明）

这里以手机app截图为例，定制化提取其中的感兴趣信息。实现OCR模型提取文字信息，输入LLM分析其识别结果直接给出所关注的关键信息——这就是ChatOCR的核心思想。

技术方案

文字识别模型：PP-OCRv4；
LLM：百度“文心一言”
开发环境：Python 3.10 + PaddlePaddle深度学习框架

存在的问题及解决思路

LLM无法100%准确地判别图像所属的场景
使用官方给出的思路，即给出场景列表，让大模型识别OCR结果属于哪个场景，然后将其作为key去提前写好的few-shot例子中找到对应场景下的信息抽取结果来指导LLM，然后LLM再根据用户提供的关键信息项和OCR结果得到最终的结果。
而这种方式依赖于LLM能准确无误的将OCR结果对应到给定列表中的某一个场景，若OCR结果不属于给定场景列表中的任何一个，或者将其错误的归于其他场景，都会导致关键信息提取失败，前者会使程序报错，而后者可能导致不正确的信息提取结果。（实测非卡证场景识别不稳定）
- 解决思路：取消场景识别这一步骤，直接输入相关例子让LLM学习
大量场景例子无法一次性喂入LLM
LLM学习的例子太多，token数量的增加会导致成本的上升和推理时间的增加。 ———超过一次输入问题的2000字数限制
- 解决思路：构建多轮对话，逐次学习例子
LLM的记忆遗忘
多轮对话中bot的回应需要自己写，这个上下文信息会影响到后续的推理结果。对话轮数（例子）越多，LLM对前文的记忆越弱，导致忘记任务要求。
- 解决思路：in-context learning prompt工程

在这里插入图片描述

关键信息提取结果

在这里插入图片描述

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。