qwen2vl 训练记录

1、可以通过 max_pixels 限制输入图片的最大尺寸,也可以通过直接修改 preprocessor_config.json 当中的参数来限制

processor = AutoProcessor.from_pretrained("/root/denglizhi/models_soft/Qwen2-VL-7B-Instruct", max_pixels=max_pixels)

2、llamafactory来对 qwen2vl 进行lora训练时、注意修改学习率、默认的qwen2vl lora.yml配置的是 1e-4、可以改到 2e-5;

3、建议打开日志记录,方便调优

### eval
val_size: 0.01
per_device_eval_batch_size: 4
eval_strategy: steps
eval_steps: 500
### log
report_to: tensorboard
logging_dir: /data/model/output/runs
logging_strategy: steps

4、qwen2vl lora训练时,可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%(图片限制在 512token时)/ 0.4%(图片在3300token时)

5、其他记录

The default range for the number of visual tokens per image in the model is 4-16384

可以设置图片的像素范围:比如 256-1280token
min_pixels = 2562828
max_pixels = 12802828

processor.apply_chat_template 函数作用

当图片是 2044 * 1372像素时

处理成的 token数是 73 * 49 = 3577 token、整个prompt的token是 3602个

inputs.data[‘input_ids’] 是 包含vision tokens的整个prompt tokens,通过 processor 得到

inputs.data[‘pixel_values’] 是 (14308 ,1176) 维度

前一个是 grid_t * grid_h * grid_w 14308 = 1 * 98 * 146

后一个是 channel * self.temporal_patch_size * self.patch_size * self.patch_size
1176 = 3* 2* 14 * 14

‘image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小 时间、高度、宽度 grid_t, grid_h, grid_w

因为 图片和视频帧的同步、 乘以2、所以高度(即宽度) = 49 * 2 = 98

维度 转为 pixel长度 98 * 146 = 14308

14308 和 3577 的关系是?

### LLaMA-FactoryQwen2-VL 2B模型概述 #### 关于LLaMA-Factory LLaMA-Factory是一个强大的工具包,旨在帮助开发者轻松地进行大规模预训练语言模型的微调工作。该平台不仅简化了环境搭建过程,还提供了详细的指南来指导用户完成从数据准备到模型评估的一系列操作[^4]。 对于希望基于现有大型多模态模型开展研究或开发工作的团队来说,LLaMA-Factory无疑提供了一个理想的解决方案。它支持多种类型的自定义调整选项,使得即使是没有深厚技术背景的人也能够快速入门并有效利用这些先进的AI能力。 #### Qwen2-VL 2B模型特性 Qwen2-VL 2B是一款由阿里巴巴推出的大规模多模态预训练模型,在视觉理解和自然语言处理方面表现出色。这款模型能够在理解图像内容的同时解析文本信息,从而实现更加复杂的应用场景下的交互体验[^1]。 具体而言,Qwen2-VL 2B具备以下特点: - **跨领域适应性强**:无论是用于医疗诊断辅助还是其他行业特定的任务,都能够展现出良好的泛化性能; - **易于获取**:除了可以在魔塔社区找到之外,Hugging Face平台上也有官方发布的版本可供下载; - **高效能表现**:得益于其优化后的架构设计以及高效的推理算法,即便是在资源有限的情况下依然可以保持较高的运行效率; #### 微调实践案例分享 有实际项目展示了如何借助LLaMA-Factory成功完成了针对Qwen2-VL 2B的基础之上构建专门面向医疗服务领域的增强版多模态大模型的工作流程。整个过程中涉及到了对原始模型结构的选择、训练参数设定等多个重要环节,并最终实现了预期目标——即提高了特定应用场景下预测准确性的同时降低了错误率[^2]。 此外,还有其他实例证明采用LoRA(Low-Rank Adaptation)方法来进行此类大型预训练模型的小样本量条件下的精细化调节同样可行且效果显著[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值