什么是多模态表示?
简单来说,多模态 是一门研究如何理解和处理不同类型数据(比如文字、图片、声音)的科学,这些数据虽然形式各异,但内部紧密关联。
它的核心目标是:将这些五花八门的信息融合成一种统一的“联合表征”。这样做有两个关键好处:
-
确保每种数据独有的互补信息都能被保留下来。
-
自动过滤掉不同模态之间重复、冗余的内容。

多模态的任务有哪些呢?
图文检索:
这项任务就像是考验机器的“匹配能力”,判断给定的图片和文字是否描述的是同一件事。
- 以图搜文:给定一张图片,让它从海量文本库中,找出最贴切、最匹配的那一句描述。
- 以文搜图:反之,给定一段文字,让它从图库中精准检索出最能体现文字内容的图片。
- 常用“考题”:COCO、Flickr30k 等公开数据集。
自然语言视觉推理:
这个任务难度升级,要求模型不仅能看到,还要能思考。给定两张图片和一段文字描述,模型需要判断这段文字是否准确地描述了两张图片的内容。
- 常用“考题”:NLVR、NLVR2 等专业数据集。

视觉问答:
这可能是最直观的任务了:给机器看一张图,并向它提出一个关于这张图的问题,让它从多个选项中选出正确答案。
- 常用“考题”:例如 GQA 数据集,它尤其侧重于测试模型的深层推理能力,而不仅仅是识别物体。

CLIP(Contrastive Language-Image Pre-training)
CLIP 的提出,让“零样本图像分类”“通用视觉特征提取”“多模态检索”等能力直接成为现实,也为后续如 BLIP、Flamingo、LLaVA 等大型多模态模型奠定了基础。
为什么需要 CLIP?
传统视觉模型(如 ResNet、VGG)训练时通常依赖 ImageNet 这类规模有限且标注昂贵的数据集,模型的泛化能力难以覆盖真实世界的长尾分布。
相比之下,互联网天然包含海量 图像 + 文本 数据,例如微博配图、新闻配图、商品展示等。
这些文本通常不是严格标注,但蕴含着强烈的弱监督信息,如:
- 一只站在雪地里的哈士奇
- 黑色商务背包
- 在海边奔跑的小孩
CLIP 的核心思想是:利用海量公开图文对,通过对比学习,让模型自动学会将自然语言描述与图像对齐。这种训练方式使得模型天然具备了更强的语义泛化能力。
模型结构:双塔架构

CLIP 的核心是一个典型的双编码器结构**:图像与文本分别经过独立的编码器映射到同一个对齐后的语义空间中,然后通过对比学习进行训练。**

Image Encoder:图像编码器
CLIP 的图像编码器使用两类主流架构:
- ResNet 系列:在传统卷积网络基础上进行了多处结构性的改进,更适合大规模对比学习场景。
- Vision Transformer(ViT)系列:例如 ViT-B/32、ViT-L/14,在 patch-level 的全局建模能力使其在 CLIP 的训练框架下表现更为突出。
图像经过编码器后会被投影到一个 D 维图像向量空间。
Text Encoder:文本编码器
文本编码器采用 Transformer 架构,输入为经过 BPE 分词的文本序列。
模型最终通过特殊的 [CLS] token 输出文本语义向量,维度与图像向量保持一致,以便进行跨模态比对。
这种基于自然语言的开放式编码,使 CLIP 可以理解任意文本描述,而不是依赖固定标签体系。
Contrastive Pre-training:基于对比学习的预训练
CLIP 的训练目标是让“正确的图文对”在语义空间中靠近,而“错误的图文对”彼此远离。
这一目标通过跨模态对比学习实现,训练过程基于一个的相似度矩阵对于一个batch的张图片和段文本:
-
将所有图片编码成向量:
-
将所有文本编码成向量:
-
计算任意图片与任意文本的相似度,形成一个的矩阵
矩阵中:
- 对角线位置(i=i)为正样本:真实的文本对
- 非对角线位置(i≠j)全部视为负样本:不匹配的文本对
对比损失
模型同时最小化两个方向的 InfoNCE Loss:
- 图像 → 文本
- 文本 → 图像
从而保证图像向量和文本向量在同一潜在空间中高度一致,使模型学会跨模态对齐。
推理范式:基于相似度的无头分类
CLIP 的推理过程不依赖任何形式的显式分类头。模型以图像和文本在同一嵌入空间中的余弦相似度作为决策依据,将分类任务重写为跨模态向量检索问题。
传统视觉模型的分类头本质是一个维度为 的线性层,其列向量可视为每个类别的静态语义原型。 CLIP 则通过文本编码器按需生成类别向量,从而用自然语言描述替代固定的分类器权重矩阵,实现一个可扩展的、非封闭式标签空间。
对于任意类别集合 ,分别构造其文本描述并编码为向量 ,图像向量记为 。最终预测为:模型无需重新训练即可完成新的任务或新类别的识别,其关键在于: 分类行为由文本编码器参数化,而非通过任务特定权重得到
提示模板:构建稳定的文本语义表示
单独标签词在文本空间中往往语义稀疏,不足以提供与视觉数据对齐的概念信息。为此CLIP在推理阶段使用prompt template构造上下文增强的文本描述。
文本编码器基于大规模语料训练,倾向于在自然语言上下文中表达概念。
例如:
- “cat” → 语义模糊、分布不稳定
- “A photo of a cat, a type of pet.” → 更接近视觉语义、更稳定的编码向量
提示模板通过引入结构化语境(如 “a photo of …”),有效减少文本向量在类别边界附近的噪声,使图像–文本对齐更稳健。

MOCO (Momentum Contrast for Unsupervised Visual Representation Learning)
为什么需要 MoCo?
自监督学习的目标是在没有人工标注的情况下,学习具有泛化能力的表示。对比学习是其中最成功的路线之一——通过让“正样本拉近、负样本拉远”来获得稳定的表征。
但是当时的对比学习面临两个关键问题:
- 大规模字典难以构建:对比学习需要大量负样本,如果字典太小,特征容易发生坍缩。
- 正负样本特征不一致:需要一个稳定的编码器来生成特征字典,但直接从 mini-batch 中取负样本会造成较大噪声。
MoCo 与其它对比学习机制的核心区别

端到端(End-to-End)
- q 和 k 由可训练 encoder 同步更新
- 优点:特征一致性强
- 缺点:负样本数量受限于 batch,需要超大 batch
Memory Bank
MoCo
-
q由可训练encoder同步更新
-
k使用动量更新,不参与反向传播
-
使用动量 encoder 生成稳定的 k
-
使用队列维持大规模、不断更新的负样本
-
同时获得“大量负样本 + 特征一致性”
MoCo 提出的解决方案是构建一个“动态更新但保持一致”的特征字典,并用动量编码器来保证特征稳定性。
MoCo 的核心思想

动量编码器
MoCo 使用两个编码器:
- Query Encoder(在线编码器):更新来自正常反向传播
- Key Encoder(动量编码器):使用动量更新,不参与反向传播
动量更新公式为:
其中 ( m ) 通常接近 1(如 0.999),保证 Key Encoder 的参数更新缓慢,从而保持特征字典的稳定性。
动态队列
MoCo 不再依赖 mini-batch 内的有限负样本,而是使用一个 大型 FIFO 队列(如 65k 个样本) 来存储 Key Encoder 提取的特征,并持续更新。
这样做可以:
- 维持大规模负样本字典
- 保证负样本在整个训练过程中稳定
- 避免 batch size 限制
MoCo 的训练步骤如下:
-
输入图片,生成两种不同增强方式:
-
Query Encoder 提取查询向量 ,Key Encoder 提取 key 向量
-
将 与当前队列中的所有负样本 keys 做对比
-
正样本来自于增强后的 key
-
计算 InfoNCE 损失:
-
将新 key 加入队列,最旧的 key 被移出
MoCo 通过 “一致且稳定的字典 + 大规模负样本 + 动量编码器” 达到了高效学习表征的目的。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
911

被折叠的 条评论
为什么被折叠?



