文本会骗人,图片也会骗人,那图文一起骗是不是就更真诚了?——一位匿名大模型。
🧠 什么是多模态模型?一句话解释:
多模态大模型就是那种能一边看图,一边理解你说什么,还能再配个音频或生成个视频的 AI。它不是“你说我做”,而是“你说、我看、我听、我理解、我生成”。
🔍 模态是啥?别被名词吓到
“模态”(modality)这个词看着高深,其实就是“数据的形态”。
-
文本是一个模态(文字)
-
图片是一个模态(视觉)
-
音频是一个模态(听觉)
-
视频是多个模态(视觉+听觉+时间序列)
-
代码也是一种模态(语法结构+逻辑)
多模态模型就是能同时理解多个模态的信息。例如,它能根据一张图配上一段描述,还能理解你为什么在图里圈了一个红框。
🧬 一切的起点:CLIP 是怎么把图和文对齐的?
OpenAI 的 CLIP(Contrastive Language-Image Pretraining)做了一件非常聪明的事:
👉 它把图像和文本都映射到同一个向量空间(embedding space),并通过对比学习拉近“正确图-文配对”的距离,推远“错误配对”。
比如:
-
图片:🖼️ 一只猫坐在沙发上
-
文本:"A cat sitting on a couch"
这两个向量会被训练得靠近。
代码示例(简化版,用 transformers + CLIPProcessor):
from transformers import CLIPProcessor,

最低0.47元/天 解锁文章
1174

被折叠的 条评论
为什么被折叠?



