多模态大模型

一 通义千问系列

1 Qwen-VL

这个其实就是使用了一个单层交叉注意力的Q-former,但是其还在交叉注意力中显式加入了绝对位置编码。
在这里插入图片描述
输入的格式预处理:<img>图像特征</img>,<box>xyxy格式坐标框</box>
在这里插入图片描述
训练过程包括三个,两个预训练阶段和一个指令微调阶段
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
参考:https://www.51cto.com/aigc/4716.html
在这里插入图片描述

Qwen2-VL

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3 Qwen2.5-VL

在这里插入图片描述
在这里插入图片描述
知乎Qwen2.5-VL

二 ChatGLM系列 (General Language Model)

ChatGLM

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ChatGLM2

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ChatGLM3

优快云 ChatGLM3 链接
在这里插入图片描述
在这里插入图片描述

VisualGLM

优快云 VIsualGLM
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三 Hunyuan 混元大模型系列

优快云 Hunyuan大模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多模态
在这里插入图片描述

四 Llava系列

在这里插入图片描述
在这里插入图片描述

Llava1 (Visual Instruction Tuning)

优快云 Llava1链接
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Llava1.5

知乎 Llava2链接
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Llava Next(1.6)

知乎Llava Next链接

MiniGPT系列

MiniGPT4

六 BLIP系列 (含ALBEF)

ALBEF(BLIP的前身)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值