多模态大模型是什么?从 CLIP 到 Gemini 的跨模态理解

文本会骗人,图片也会骗人,那图文一起骗是不是就更真诚了?——一位匿名大模型。


🧠 什么是多模态模型?一句话解释:

多模态大模型就是那种能一边看图,一边理解你说什么,还能再配个音频或生成个视频的 AI。它不是“你说我做”,而是“你说、我看、我听、我理解、我生成”。


🔍 模态是啥?别被名词吓到

“模态”(modality)这个词看着高深,其实就是“数据的形态”。

  • 文本是一个模态(文字)

  • 图片是一个模态(视觉)

  • 音频是一个模态(听觉)

  • 视频是多个模态(视觉+听觉+时间序列)

  • 代码也是一种模态(语法结构+逻辑)

多模态模型就是能同时理解多个模态的信息。例如,它能根据一张图配上一段描述,还能理解你为什么在图里圈了一个红框。


🧬 一切的起点:CLIP 是怎么把图和文对齐的?

OpenAI 的 CLIP(Contrastive Language-Image Pretraining)做了一件非常聪明的事:

👉 它把图像和文本都映射到同一个向量空间(embedding space),并通过对比学习拉近“正确图-文配对”的距离,推远“错误配对”。

比如:

  • 图片:🖼️ 一只猫坐在沙发上

  • 文本:"A cat sitting on a couch"

这两个向量会被训练得靠近。

代码示例(简化版,用 transformers + CLIPProcessor):

from transformers import CLIPProcessor,
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值