Whynot886-优快云博客

原创多模态大模型

这个其实就是使用了一个单层交叉注意力的Q-former，但是其还在交叉注意力中显式加入了绝对位置编码。输入的格式预处理：<img>图像特征</img>,<box>xyxy格式坐标框</box>训练过程包括三个，两个预训练阶段和一个指令微调阶段参考：https://www.51cto.com/aigc/4716.html知乎Qwen2.5-VL优快云 ChatGLM3 链接优快云 VIsualGLM优快云 Hunyuan大模型

2025-04-15 20:43:28 675

原创大模型、多模态、深度学习、AIGC算法八股

在 CLIP（Contrastive Language-Image Pre-training）模型中，通常没有明确规定 SOS 和 EOS token 必须设为某个固定的具体数值。不过 CLIP 的文本编码器在处理文本时，一般会遵循以下的常见做法：SOS（Start of Sequence）：CLIP 的文本编码器基于 Transformer 架构，使用小写字节对编码（BPE）表示文本时，SOS 标记用来表示文本序列的开始。它更多是一种标记符号，在实际的嵌入向量表示中，会被映射为一个特定的向量，但这个向量

2025-02-28 15:27:23 2620

原创目标检测数据集合成

微调了一个扩散模型，但是只是文生图的扩散模型而没有用可控文生图模型去做，所以扩撒模型只是用来产生图片的。关于标注，引入了一个和Grounding Dino相同的模块叫做定位头来专门进行框和类别的预测。我们采用了一种温和的策略，从图像中随机提取作物，并使用图像作物中的类别构建文本提示符，如图2a所示。如果图像裁剪包含同一类别的多个对象，我们只在文本提示符中使用此类别名称一次。训练的Grounding head 还是一个开区间的，但是首先在固定样本上训练，然后使用蒸馏在新类上训练。

2024-09-27 17:14:17 1899 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 多模态大模型

原创 大模型、多模态、深度学习、AIGC算法八股

原创 目标检测数据集合成

空空如也

空空如也

原创多模态大模型

原创大模型、多模态、深度学习、AIGC算法八股

原创目标检测数据集合成