LM
文章平均质量分 94
timebeliever
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DINO-R1:视觉prompt和GRQO如何增强视觉模型的推理能力?
DINO-R1基于Grounding-DINO框架,通过新型强化学习策略——GRQO(Group Relative Query Optimization)训练,具有利用视觉prompt引导视觉模型检测推理的能力。 截止至2025年7月29日,该工作的代码、模型都没有开源,所以关于视觉prompt和GRQO训练策略在视觉模型上的查询性能和泛化能力犹未可知,只能先从理论的角度分析一下这两者是如何增强视觉模型的推理能力的。原创 2025-07-29 17:15:21 · 1352 阅读 · 0 评论 -
Qwen2-VL技术报告 阅读笔记
Qwen2-VL是阿里巴巴推出的多模态大模型系列,通过创新架构实现图像/视频统一处理。核心技术包括:1)Naive Dynamic Resolution机制,采用2D-RoPE替换传统位置编码,动态调整不同分辨率图像的token数量;2)Multimodal-RoPE位置编码,将旋转位置嵌入扩展到时序+空间三维,统一处理文本/图像/视频的位置信息;3)3D卷积融合视频帧时空特征,将图像视为单帧视频实现模态统一。原创 2025-07-23 18:07:33 · 1030 阅读 · 0 评论 -
Qwen-VL技术报告 阅读笔记
阅读Qwen-VL技术报告,虽然是23年的技术报告,但作为入门的新手而言是个不错的学习资料,后续会继续阅读Qwen2-VL以及Qwen2.5-VL的技术报告。在阅读过程中会提出一些问题并努力去理解并回答,如理解有偏颇,欢迎大家指出。原创 2025-05-08 17:34:05 · 1177 阅读 · 0 评论 -
大模型显存需求一览:推理、训练、微调分别要多少显存?
2025年4月29日,阿里开源新一代通义千问模型 Qwen3。,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型,以及,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外,六个 Dense 模型也已开源,包括和。原创 2025-05-06 10:00:26 · 9535 阅读 · 0 评论 -
swift框架lora-grpo训练多模态分类任务-Qwen2-VL-2B
因为使用lora训练,最终的checkpoint文件只包含LoRA适配器的增量权重,Qwen2-VL-2B-Instruct的完整权重仍然存放在预训练模型中,所以需要让LoRA的增量参数合并回主模型,才变得完整且可推理。准确率奖励函数并没有明显的提升,看了一下每一个样本的响应,发现有个影响准确率判别的因素是:数据集中的花朵名词部分为学名、部分为俗称,而样本响应给出的答案有时会给出两个名称,有时响应都给出学名,就比如。是向日葵的学名,而预设的solution只包含。使用ms-swift框架下的。原创 2025-03-31 16:01:40 · 4558 阅读 · 5 评论
分享