一 通义千问系列
1 Qwen-VL
这个其实就是使用了一个单层交叉注意力的Q-former,但是其还在交叉注意力中显式加入了绝对位置编码。
输入的格式预处理:<img>图像特征</img>,<box>xyxy格式坐标框</box>
训练过程包括三个,两个预训练阶段和一个指令微调阶段
参考:https://www.51cto.com/aigc/4716.html
Qwen2-VL
3 Qwen2.5-VL
二 ChatGLM系列 (General Language Model)
ChatGLM
ChatGLM2
ChatGLM3
VisualGLM
三 Hunyuan 混元大模型系列
优快云 Hunyuan大模型
多模态
四 Llava系列
Llava1 (Visual Instruction Tuning)
Llava1.5