多模态MLLM都是怎么实现的（1）

最新推荐文章于 2025-12-25 14:45:45 发布

原创

最新推荐文章于 2025-12-25 14:45:45 发布 · 1.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理 #语言模型

本文介绍了多模态大语言模型（MLLM）的基本原理，以CLIP模型为例，阐述了多模融合的方法，包括文本-图像的Encoder设计和特征融合过程。CLIP模型在抽象图片的分类任务上展现出强大的泛化能力，但也有其局限性，如OCR表现不佳，无法处理某些新概念。后续将探讨更多相关算法和技术。

好多读者私信说想了解一下多模态的内容，我这人最大的优点就是听劝...

好，那么好

, 今天开始陆续写点多模态内容，没想好是不是要写个专栏（因为我之前挖的坑太多...），然而还是开了，今天先写点基础做个seed

有想了解一下多模态扫盲的读者，可以自己先看看这篇论文

2311.13165.pdf (arxiv.org)

说是论文其实没什么干货，当多模态介绍看看是可以的（BTW现在感觉在aixV上水论文真的容易，我越来越想找人一起水一篇了，有兴趣的请联系我）

我先按照我自己的思路给大家过一下

MLLM（Multimodal Large Language Models）即多模态的大语言模型，顾名思义，这个还是以大语言模型为基础的

那怎么个多模法呢？从我这总结主要是2点：

1-Encoder，decoder的多模

2-多模融合

我们从一个简单的多模态CLIP讲起

CLIP也是OPENAI的模型，现在也被广泛的应用于各种多模态的业务场景里，本身是开源的，又是挺重要的分类器，你们使用的多模态模型或多或少都用了它的代码和概念

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

周博洋K

关注关注

44
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

一文读懂「MLLM，Multimodal Large Language Model」多模态大语言模型

女王の专属领地

01-09

8884

模态是事物的一种表现形式，多模态通常包含两个或者两个以上的模态形式，是从多个视角出发对事物进行描述。生活中常见多模态表示，例如传感器的数据不仅仅包含文字、图像，还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面，多模态研究成为当前研究重要方面，在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。MLLM通常以大语言模型(Large Language Model，LLM)为基础，融入其它非文本的模态信息，完成各种多模态任务。MLLM定义为“

自编码器在多模态学习中的应用

AI天才研究院

12-31

1565

1.背景介绍自编码器(Autoencoders)是一种深度学习架构，它通过学习压缩输入数据的低维表示，从而实现数据的编码和解码。自编码器被广泛应用于数据压缩、特征学习和生成模型等领域。在过去的几年里，多模态学习也成为了人工智能领域的一个热门话题。多模态学习是指在不同模态(如图像、文本、音频等)之间学习共享表示的过程。在这篇文章中，我们将探讨自编码器在多模态学习中的应用，并深入探讨其核心概念、算...

参与评论您还未登录，请先登录后发表或查看评论

多模态论文串讲·下【论文精读·49】最近使用 transformer encoder 和 decoder 的一些方法

云淡风轻_的博客

02-14

1965

那答案是肯定的。我们首先来看 ALBEF，

多模态大模型(MLLM)：Modality Encoder，零基础入门到精通，收藏这一篇就够了

Javachichi的博客

09-21

2924

经典MLLM架构多模态大模型(MLLM)：架构篇一、Modality Encoder 简介多模态编码器将原始信息（如图像或音频）压缩为更紧凑的表示形式。一种常见的方法是使用与其他模态对齐的预训练编码器，而不是从头开始训练。本文主要介绍 Modality Encoder。包括。二、Visual Encoder**CLIP-VIT：**作为Vision-Language Model最流行的选择，提供了图像-文本的表征对齐，参数量和数据量的 scale 比较好。

＜＜多模态预训练and视觉问答＞＞2019：LXMERT: Learning Cross-Modality Encoder Representations from Transformers

金克丝的博客

12-24

1082

摘要：视觉语言推理需要理解视觉概念、语言语义，以及最重要的，这两种模式之间的对齐和关系。因此，我们提出LXMERT(利用Transformers学习跨模态编码器表示)框架来学习这些视觉和语言的关系，在LXMERT中，我们构建了一个大规模的Transformer模型，该模型由三个编码器组成：对象关系编码器、语言编码器和跨模态编码器，接下来，为了赋予我们的模型连接视觉和语言语义的能力，我们使用大量的图像和句子对对模型进行预训练，通过五个不同的具有代表性的预训练任务：掩码语言模型、掩蔽对象...

多模态大模型（一）——只用Transformer Encoder的方法(CLIP、ViLT、ALBEF、VLMo)

薛定谔的猫的博客

12-12

1888

总之VLMo还是非常有效的，它在 4 million的数据集上的表现就已经非常亮眼了，它跟 ALBEF去做这种公平对比的时候，是比 ALBEF全线都要高的要 2 到 3 个点，所以算是 significant improvement。

多模态MLLM都是怎么实现的(11)--从SadTalker到快手LivePortait

周博洋的博客

07-06

1313

我之前出差带休假差不多两个礼拜吧，今天回北京更新一篇我确实找到了一个有意思的东西，这东西开源了，你可以认为是目前做得最好的"Sadtalker"，国内也有dream-talker，EMO之类的。我之前看EMO的效果最好，先不说EMO（它虽然标称A2V,实际上就是ASR+T2V+openpose）这种不开源，光拿git上挂个demo测不出来好坏，实际产品力有待观察，主要是LivePortrait的表情位移和精确度要吊打其他任何一个目前我看到的产品，包括EMO。

多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？

周博洋的博客

05-28

1273

TCN，另外时间步卷积，Temporal Convolutional Networks ，使用卷积网络处理时序数据，具有更好的并行计算能力，但是为啥不用它呢，其实和它对NLP的道理差不多，通过野去做东西不适合序列化的任务。讲完了，总体看其实思路并不难，冻住LLM，只用少量的时序数据就可以快速训练，但是其实我刚才也讲了，前期的数据准备工作，包括PAP是很复杂的，需要有很好的数据工程基础。第三块就是对这段给过去的数据的一个描述，主要是最大最小，均值方差，MAE，MSE啥的，普通的时序预测咋算，这个就咋描述。

多模态MLLM都是怎么实现的(12)-Florence-2

周博洋的博客

08-04

937

前3个表是拿经过特定领域数据训练的模型和florence2的B和L级别相比（B是0.23 L是0.7,都嗷嗷小）除了coco的数据集以外，其他的，没经过微调的florence-2都比特定领域数据训练的模型表现好，尤其是标准视觉的特定区域的CV任务，可能VQA要差点（VQA这玩意和模型大小的差距还是挺明显的）•视觉注释的稀缺：现有的视觉数据集，如 ImageNet、COCO 和 Flickr30k 等，尽管标注精细，但由于任务和应用的专用性限制，难以捕捉到全面的空间层次和语义粒度信息。

多模态大语言模型(MLLM)

12-09

多模态大语言模型(MLLMS)具有在各种领域展示了令人印象深刻的教学能力开放式任务...值得注意的是，mPLUG-Owl2是第一个在纯文本和多模态场景中展示模态协作现象的 MLLM 模型，为未来的多模态基础模型的发展开辟了先河。

多模态方法总结

孤独腹地的博客

10-09

1703

总的来说，多模态几乎都是基于Transformer的工作，并且正在向更大一统的方向前进。BeiTv3尽管只有一个模型，但依然有不同的子模块FFN。一个方向是language interface，类似通过prompt指定任务类型，把所有的任务都当成文本生成任务。另外，在最后总结一下我目前遇到的一些问题，第一个是ALBEF论文里的伪标签文本是如何生成的。我这里说的是伪标签文本而不是伪标签。对于ITC来说，生成的伪标签是一个相似度，对于MLM来说，生成的伪标签是词表概率分布。这些都不需要文本。

经典多模态模型

Scabbards_的博客

06-11

4939

传统多模态模型以及一些笔记 vilt，clip, albef, vlmo, blip, coca, beit v3

AI多模态模型架构之模态编码器：图像编码、音频编码、视频编码

AIGCmagic的博客

04-28

9672

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

大模型LLM | 多模态大模型(MLLM)：Modality Encoder

老皮的博客

10-01

1201

经典的MLLM可以抽象为三个模块，即。

zenRRan的博客

05-10

4033

每天给你送来NLP技术干货！来自：圆圆的算法笔记作者：Fareise最近谷歌提出了最新多模态预训练方法CoCa，在图像分类、图文检索、看图说话、VQA等多个任务都取得了SOTA效果。CoCa可以说融合了历史图像模型、多模态模型训练范式为一体，融合了多种训练范式的优点，具有非常广泛的适用场景。同时，模型的核心结构和设计思路也比较优雅简洁。下面带大家了解一下这篇谷歌最新多模态...

五花八门的多模态模型如何选择？

fareise的博客

04-02

4960

微软近期发表的一篇论文An Empirical Study of Training End-to-End Vision and Language Transformers（2022）进行了大量的实验，对不同VLP模型、各个模块不同配置的效果。

通过统一多模态Transformer(UMT)的实体扫描检测（ESD）来改进多模态命名实体识别（MNER）

凉了个茶

02-09

5443

通过统一多模态Transformer(UMT)的实体扫描检测（ESD）来改进多模态命名实体识别（MNER）论文名称：Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer 论文作者：Jianfei Yu, Jing Jiang, Li Yang, Rui Xia 论文地址：2020.acl-main.306 https://www.aclweb.o

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

qq_22146161的博客

12-25

1071

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板，支持跑ai小智机器人的源码，基于idf5.5.1库编译，分享下