多模态大模型解读

目录

1. CLIP

2. ALBEF

3. BLIP

4. BLIP2

参考文献


        (2023年)视觉+语言的多模态大模型的目前主流方法是:借助预训练好的LLM和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行深层次的问答推理。

        这样可以利用已有的大量单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微调等方式打通两个模态的表征。下图来自其他 up 的概括内容,来自:https://zhuanlan.zhihu.com/p/653902791

        对于CLIP部分公式均参照该链接,仅了解损失函数。

图 基础MLLM的架构整理

1. CLIP

        分别对图像、文本进行特征提取,两部分的backbone可以分别采用Resnet系列模型/VIT系列模型、BERT模型。特征提取后,直接相乘计算余弦相似度,然后采用对比损失(info-nce-loss)。

训练损失

  • 交叉熵代价损失(cross entropy):基础有监督学习分类损失函数。

图 n个类别多分类的交叉熵代价函数

  • NCE(noise contrastive estimation):相比于交叉熵损失,这里将多问题转化为二分类问题,即正样本和噪声样本,目标学习正样本和噪声样本之间的差异。

图 噪声对比

### 多模态大模型在OCR技术中的应用 多模态大模型(Multimodal Large Models, MLMs)因其强大的跨模态理解能力,在光学字符识别(Optical Character Recognition, OCR)领域展现了显著的优势。这些模型不仅能够处理单一的文本数据,还能融合来自图像其他媒介的信息,从而提升OCR任务的效果。 #### 背景与基础 近年来,人工智能的发展推动了深度学习的进步,特别是在多模态大模型方面。这类模型具备处理多种类型数据的能力,例如文本、图像、音频视频等,并能从中提取有价值的信息[^1]。这种特性使其非常适合应用于复杂的OCR场景,尤其是在需要结合视觉信息语义理解的情况下。 #### 技术实现 为了更好地评估多模态大模型在OCR任务上的表现,研究人员开发了一系列基准测试工具,如OCR Bench。该工具提供了针对OCR任务的具体评测标准,强调通过更详细的答案来展示模型的实际性能,而不仅仅是简单的输出结果[^4]。这意味着多模态大模型在执行OCR任务时,不仅要完成基本的文字识别工作,还需要综合考虑上下文环境以及不同模式之间的关联性。 以下是基于Python的一个简单示例代码片段,用于演示如何加载预训练好的多模态大模型并进行OCR操作: ```python from transformers import AutoProcessor, AutoModelForVision2Seq processor = AutoProcessor.from_pretrained("microsoft/trocr-base-printed") model = AutoModelForVision2Seq.from_pretrained("microsoft/trocr-base-printed") def perform_ocr(image_path): image = Image.open(image_path).convert("RGB") # 加载图片文件 inputs = processor(images=image, return_tensors="pt") # 图像预处理 generated_ids = model.generate(inputs.pixel_values) # 执行OCR推断 result_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] return result_text # 使用函数读取一张图片并打印其文字内容 print(perform_ocr('example_image.png')) ``` 此代码展示了利用Transformers库加载一个预先训练过的多模态模型来进行OCR的过程。其中`AutoProcessor`负责准备输入数据,而`AutoModelForVision2Seq`则完成了实际的序列生成过程。 #### 应用实例 在文档图像智能处理分析领域,多模态大模型的应用尤为突出。通过对不同类型来源的数据进行全面且精准的处理与解析,可以有效改善文档图像的内容理解分类效率[^3]。比如,在医疗记录数字化过程中,除了单纯的文字转录外,还可以加入表格结构化解读等功能,进一步提高自动化水平服务质量。 #### 总结 综上所述,借助于先进的算法框架技术手段,当前的多模态大模型已经在OCR方向取得了令人瞩目的成就。它们不仅可以单独胜任传统意义上的字符辨识职责,还能够在更加复杂的情境下发挥重要作用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值