zouzs1919-优快云博客

原创强化学习-DPO/KTO

的表达式，然后将该reward表达式代入了以Bradley-以PPO为优化目标产生最优Policy的条件下推出了。模型建模的最大似然估计中，即可得到DPO的Loss。

2025-04-23 10:29:40 532

原创 BLIP模型原理

CLIP只能做图像检索，BLIP统一了视觉语言任务的理解与生成能力，还通过引入Captioner-Filter机制减少了监督文本的噪声为了让VLP同时具有图文多模态的理解和生成能力，即能够根据图像生成描述，又能够根据图像回答问题。一种多模态混合架构，可以分别作为单模态编码器（图像，文本），图像引导文本编码器、图像引导文本解码器。

2025-02-23 12:29:12 1494

原创 Qlora微调原理总结

思路主要围绕减少训练大模型时需要的显存资源。

2025-02-22 17:21:38 265

原创手撕Transformer中的多头注意力机制

【代码】手撕Transformer中的多头注意力机制。

2025-02-21 17:07:59 169

适配器：为了解决由于长图像特征序列而产生的效率问题，Qwen-VL引入了一个称为“Position-aware Vision-Language Adapter”的适配器，用于压缩图像特征。另外，考虑到位置信息对于细节图像理解的重要性，2D绝对位置编码被引入到交叉注意力机制的查询-关键对中，以减轻在压缩过程中位置细节的潜在丢失。在监督微调阶段，Qwen-VL模型通过引入额外的指导微调数据来提升其交互和对话能力，从而生成了交互式的Qwen-VL-Chat模型。针对文本标记的训练目标是最小化文本标记的交叉熵。

2025-02-21 13:44:33 2103

原创 LLava原理分析

CLIP损失函数：对相似度矩阵，分别从行方向和列方向计算loss，最后取两者的平均。图像到文本：对于每一个图像，模型尝试找到对应的文本描述。通常使用点积计算相似度、通过softmax转换为概率分布。模型的目标使得当前图像真实对应的文本的概率最大化。损失函数用最小化交叉熵损失。文本到图像：同上。

2025-02-20 23:49:28 678

原创 Lora微调原理总结（一）

（3）平衡训练初期的影响：正态分布初始化的值一般较小，结合B矩阵初始化为零矩阵，可以在训练初期确保新增的偏置矩阵对原始预训练权重的影响为零，从而避免破坏预训练模型的初试性能。从self attention的角度说，Q是查询向量用于决定模型在注意力机制中的关注程度、K是用于生成键向量，与查询向量计算相似度、帮助确定注意力分布、V是用于生成数值向量，实际传递注意力机制计算的输出。从信息传播的关键路径来说，Q、K、V、O起着关键的作用，Q和K的交互决定了注意力的分布，影响模型对输入序列的不同部分的关注度。

2025-02-20 14:31:34 1514

zouzs1919的博客