qwen2vl 训练记录

最新推荐文章于 2025-04-16 16:13:43 发布

谁怕平生太急

最新推荐文章于 2025-04-16 16:13:43 发布

阅读量1.2k

点赞数 1

分类专栏：大模型文章标签： qwen2vl

本文链接：https://blog.youkuaiyun.com/jinselizhi/article/details/142522308

版权

大模型专栏收录该内容

28 篇文章

订阅专栏

1、可以通过 max_pixels 限制输入图片的最大尺寸，也可以通过直接修改 preprocessor_config.json 当中的参数来限制

processor = AutoProcessor.from_pretrained("/root/denglizhi/models_soft/Qwen2-VL-7B-Instruct", max_pixels=max_pixels)

2、llamafactory来对 qwen2vl 进行lora训练时、注意修改学习率、默认的qwen2vl lora.yml配置的是 1e-4、可以改到 2e-5；

3、建议打开日志记录，方便调优

### eval
val_size: 0.01
per_device_eval_batch_size: 4
eval_strategy: steps
eval_steps: 500
### log
report_to: tensorboard
logging_dir: /data/model/output/runs
logging_strategy: steps

4、qwen2vl lora训练时，可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%（图片限制在 512token时）/ 0.4%（图片在3300token时）

5、其他记录

The default range for the number of visual tokens per image in the model is 4-16384

可以设置图片的像素范围：比如 256-1280token
min_pixels = 2562828
max_pixels = 12802828

processor.apply_chat_template 函数作用

当图片是 2044 * 1372像素时

处理成的 token数是 73 * 49 = 3577 token、整个prompt的token是 3602个

inputs.data[‘input_ids’] 是包含vision tokens的整个prompt tokens，通过 processor 得到

inputs.data[‘pixel_values’] 是（14308 ，1176）维度

前一个是 grid_t * grid_h * grid_w 14308 = 1 * 98 * 146

后一个是 channel * self.temporal_patch_size * self.patch_size * self.patch_size
1176 = 3* 2* 14 * 14

‘image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小时间、高度、宽度 grid_t, grid_h, grid_w

因为图片和视频帧的同步、乘以2、所以高度（即宽度） = 49 * 2 = 98

维度转为 pixel长度 98 * 146 = 14308

14308 和 3577 的关系是？