- 博客(8)
- 收藏
- 关注
原创 强化学习-DPO/KTO
的表达式,然后将该reward表达式代入了以Bradley-以PPO为优化目标产生最优Policy的条件下推出了。模型建模的最大似然估计中,即可得到DPO的Loss。
2025-04-23 10:29:40
532
原创 BLIP模型原理
CLIP只能做图像检索,BLIP统一了视觉语言任务的理解与生成能力,还通过引入Captioner-Filter机制减少了监督文本的噪声为了让VLP同时具有图文多模态的理解和生成能力,即能够根据图像生成描述,又能够根据图像回答问题。一种多模态混合架构,可以分别作为单模态编码器(图像,文本),图像引导文本编码器、图像引导文本解码器。
2025-02-23 12:29:12
1494
原创 Qwen-VL原理分析
适配器:为了解决由于长图像特征序列而产生的效率问题,Qwen-VL引入了一个称为“Position-aware Vision-Language Adapter”的适配器,用于压缩图像特征。另外,考虑到位置信息对于细节图像理解的重要性,2D绝对位置编码被引入到交叉注意力机制的查询-关键对中,以减轻在压缩过程中位置细节的潜在丢失。在监督微调阶段,Qwen-VL模型通过引入额外的指导微调数据来提升其交互和对话能力,从而生成了交互式的Qwen-VL-Chat模型。针对文本标记的训练目标是最小化文本标记的交叉熵。
2025-02-21 13:44:33
2103
原创 LLava原理分析
CLIP损失函数:对相似度矩阵,分别从行方向和列方向计算loss,最后取两者的平均。图像到文本:对于每一个图像,模型尝试找到对应的文本描述。通常使用点积计算相似度、通过softmax转换为概率分布。模型的目标使得当前图像真实对应的文本的概率最大化。损失函数用最小化交叉熵损失。文本到图像:同上。
2025-02-20 23:49:28
678
原创 Lora微调原理总结(一)
(3)平衡训练初期的影响:正态分布初始化的值一般较小,结合B矩阵初始化为零矩阵,可以在训练初期确保新增的偏置矩阵对原始预训练权重的影响为零,从而避免破坏预训练模型的初试性能。从self attention的角度说,Q是查询向量用于决定模型在注意力机制中的关注程度、K是用于生成键向量,与查询向量计算相似度、帮助确定注意力分布、V是用于生成数值向量,实际传递注意力机制计算的输出。从信息传播的关键路径来说,Q、K、V、O起着关键的作用,Q和K的交互决定了注意力的分布,影响模型对输入序列的不同部分的关注度。
2025-02-20 14:31:34
1514
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅