OCR多模态大模型:视觉模型与LLM的结合之路

原文:https://zhuanlan.zhihu.com/p/7783443583

在使用多模态大模型(Visual Language Model, VLM)做视觉信息抽取时,常常出现错字的问题。为了解决这一问题,本文提出了一种名为Guidance OCR的方法。该方法在不额外训练模型的情况下,先利用OCR算法获取图片中的文字内容,再利用OCR识别出的文字对VLM的生成过程进行约束,从而一定程度上减少VLM做视觉信息抽取任务时出现错字的情况。

图片

图1:一张医疗发票,其中的敏感信息已被抹去

使用Qwen2-VL-2B模型抽取图1中的信息时,模型原生回答和使用GuidanceOCR后的回答见下表

图片

项目链接:

https://github.com/hzauzxb/guidance-ocr

一、项目背景

视觉信息抽取任务是给定一张单证图片,并从图片中抽取对应的关键字段,如从图1所示的医疗发票中抽取金额合计,住院时间和医保类型。传统的信息抽取模型先利用OCR算法获取图中的文字位置和文字内容,再利用规则引擎或模板匹配获取关键字段。VLM则可以将图片先输入给模型,再用提问题的方式要求模型给出需要抽取的字段。在开放场景的信息抽取中,由于单证板式太多,规则引擎难以维系,因此常常使用基于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值