自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 强化学习-DPO/KTO

的表达式,然后将该reward表达式代入了以Bradley-以PPO为优化目标产生最优Policy的条件下推出了。模型建模的最大似然估计中,即可得到DPO的Loss。

2025-04-23 10:29:40 532

原创 BLIP2原理解析

Q-former。

2025-02-23 12:41:03 249

原创 BLIP模型原理

CLIP只能做图像检索,BLIP统一了视觉语言任务的理解与生成能力,还通过引入Captioner-Filter机制减少了监督文本的噪声为了让VLP同时具有图文多模态的理解和生成能力,即能够根据图像生成描述,又能够根据图像回答问题。一种多模态混合架构,可以分别作为单模态编码器(图像,文本),图像引导文本编码器、图像引导文本解码器。

2025-02-23 12:29:12 1494

原创 Qlora微调原理总结

思路主要围绕减少训练大模型时需要的显存资源。

2025-02-22 17:21:38 265

原创 手撕Transformer中的多头注意力机制

【代码】手撕Transformer中的多头注意力机制。

2025-02-21 17:07:59 169

原创 Qwen-VL原理分析

适配器:为了解决由于长图像特征序列而产生的效率问题,Qwen-VL引入了一个称为“Position-aware Vision-Language Adapter”的适配器,用于压缩图像特征。另外,考虑到位置信息对于细节图像理解的重要性,2D绝对位置编码被引入到交叉注意力机制的查询-关键对中,以减轻在压缩过程中位置细节的潜在丢失。在监督微调阶段,Qwen-VL模型通过引入额外的指导微调数据来提升其交互和对话能力,从而生成了交互式的Qwen-VL-Chat模型。针对文本标记的训练目标是最小化文本标记的交叉熵。

2025-02-21 13:44:33 2103

原创 LLava原理分析

CLIP损失函数:对相似度矩阵,分别从行方向和列方向计算loss,最后取两者的平均。图像到文本:对于每一个图像,模型尝试找到对应的文本描述。通常使用点积计算相似度、通过softmax转换为概率分布。模型的目标使得当前图像真实对应的文本的概率最大化。损失函数用最小化交叉熵损失。文本到图像:同上。

2025-02-20 23:49:28 678

原创 Lora微调原理总结(一)

(3)平衡训练初期的影响:正态分布初始化的值一般较小,结合B矩阵初始化为零矩阵,可以在训练初期确保新增的偏置矩阵对原始预训练权重的影响为零,从而避免破坏预训练模型的初试性能。从self attention的角度说,Q是查询向量用于决定模型在注意力机制中的关注程度、K是用于生成键向量,与查询向量计算相似度、帮助确定注意力分布、V是用于生成数值向量,实际传递注意力机制计算的输出。从信息传播的关键路径来说,Q、K、V、O起着关键的作用,Q和K的交互决定了注意力的分布,影响模型对输入序列的不同部分的关注度。

2025-02-20 14:31:34 1514

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除