
多模态大模型
文章平均质量分 91
微调记录
Liwx1014
做好现在的事
展开
-
从TRPO到GRPO
在 LLM 的情况下,策略会在每个步骤中输出可能标记的概率分布:简而言之,这就是模型用来采样下一个要生成的标记的内容。在本文中,我们将重点介绍强化学习 (RL) 方面的内容:我们将介绍 TRPO、PPO 以及最近的 GRPO(别担心,我很快就会解释所有这些术语!其目标是使用我们获得的奖励来预测我们采取的每个动作(模型生成的每个标记)的价值(请记住,该价值应代表预期的累积奖励)。即使在实践中,奖励模型通常源自策略(仅训练“头部”),但我们最终仍需要维护许多模型并处理多个训练程序(策略、奖励、价值模型)。原创 2025-03-31 17:31:57 · 588 阅读 · 0 评论 -
Qwen-VL 技术报告总结
权重分为 Qwen-VL && Qwen-VL-Chat,区别文档稍后介绍。原创 2024-02-02 17:18:54 · 2272 阅读 · 1 评论 -
多模态大模型微调记录
1 为了避免纯文本训练和图像指令训练的干扰,视觉token 只在语言模型的最开始几层Transformer Block 添加 + prefix adpter + 语言token ,3 将视觉模型输入改为448*448, 同时微调vit第一个卷积层+视觉投影层部分参数+微调语言部分。2 解锁更多训练参数,将 llama 层的 linear中的bias +归一化层参与训练。2 将视觉模型输入改为448*448, 同时微调视觉投影层部分参数并微调语言部分。实测效果:知识可以注入,效果也比较好。原创 2023-09-25 16:53:16 · 296 阅读 · 0 评论 -
Self-Attention && Cross-Attention 区别
为什么是512*512?人们常说,Transformer不能超过512,否则硬件很难支撑;从输入输出角度,N个Transformer Encoder block中的第一个Encoder block的输入为一组向量 X = (Embedding + Positional Embedding),向量维度通常为512*512,其他N个TransformerEncoder block的输入为上一个 Transformer Encoder block的输出,输出向量的维度也为512*512(输入输出大小相同)。原创 2023-07-10 17:08:59 · 1614 阅读 · 0 评论