InternVL 微调实践闯关任务

最新推荐文章于 2025-04-25 15:24:01 发布

yuetou

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量446

点赞数 5

文章标签：人工智能 transformer

本文链接：https://blog.youkuaiyun.com/yuetou/article/details/141905645

版权

一、关卡任务

基础任务（完成此任务即完成闯关）

follow 教学文档和视频使用QLoRA进行微调模型，复现微调效果，并能成功讲出梗图.
尝试使用LoRA，或调整xtuner的config，如LoRA rank，学习率。看模型Loss会如何变化，并记录调整后效果(选做，使用LoRA或调整config可以二选一)

二、实验过程

InternVL 推理部署

推理后我们发现直接使用2b模型不能很好的讲出梗，现在我们要对这个2b模型进行微调。

InternVL 微调

复制教程config文件，修改XTuner下 InternVL的config，文件在： /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py

然后执行

cd XTuner

NPROC_PER_NODE=1 xtuner train /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py  --work-dir /root/InternLM/work_dir/internvl_ft_run_8_filter  --deepspeed deepspeed_zero1

合并权重&&模型转换

用官方脚本进行权重合并

最后我们的模型在：/root/InternLM/InternVL2-2B/ ，文件格式：

微调后效果对比

替换test_lmdeploy.py，然后跑一下效果。解释的语气完全换了一种风格。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yuetou

关注关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【书生大模型实战营】进阶岛第4关 InternVL 多模态模型部署微调实践

不想让你知道我的昵称的博客

09-01

420

修改XTuner下 InternVL的config，文件在： /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py。使用pipeline进行推理。

【书生大模型实战】InternVL 微调实践闯关任务

cjy_colorful0806的博客

08-19

1166

InternVL 是一种用于多模态任务的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息，InternVL 可以在多模态领域取得更好的表现。对于InternVL这个模型来说，它vision模块就是一个微调过的ViT，llm模块是一个InternLM的模型。对于视觉模块来说，它的特殊之处在Dynamic High Resolution。

参与评论您还未登录，请先登录后发表或查看评论

上海AI Lab Mono-InternVL环境搭建&推理测试

zzq1989_的专栏

11-18

563

在Mono-InternVL中，一组视觉专家通过专家混合机制嵌入到预训练的语言模型中。通过冻结语言模型的语言部分参数，Mono-InternVL确保了视觉能力的优化，同时不会影响预训练的语言知识。与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。Mono-InternVL在性能上优于当前最先进的多模态语言模型Mini-InternVL-2B-1.5，并且显著超越了其他原生多模态模型，如上方的。同时，它的部署效率也得到了提升，首个单词的延迟降低了最多达67%。

【LLM多模态】InternVL模型架构和训练过程

发现问题，并解决问题，批判性思维

07-13

9436

视觉编码器：InternViT-6B 动态高分辨率（和很多多模态LLM不一样的地方）：我们将图像根据输入图像的纵横比和分辨率划分为1到40块，每块为448×448像素（图像很大则会被切分，每个块被模型独立处理，可以更好地处理图像的细节），从而支持高达4K分辨率的输入（40个小块）。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一（原始为1024个token）。PixelUnshuffle操作（即Space2Depth操作，即把相邻区块的特征从空间维度往通道维度上堆叠

书生.浦江大模型实战训练营——（十二）InternVL 多模态模型部署微调实践

weixin_63866037的博客

08-27

615

InternVL 是一种用于多模态任务的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息，InternVL 可以在多模态领域取得更好的表现

书生.浦语大模型实战训练营(InternVL 微调实践闯关任务)

u013232710的博客

09-22

1214

我们使用InternVL2-2B模型,该模型已在share文件夹下挂载好，我们创建模型的软链接cd /root数据集我们从官网下载下来并进行去重，只保留中文数据等操作。并制作成XTuner需要的形式。并已在share里，同样地，我们制作软链接推理后我们发现直接使用2b模型不能很好的讲出梗，现在我们要对这个2b模型进行微调。

书生大模型实战营闯关记录----第九关：InternVL 多模态模型部署微调实践

Ace_bb的博客

08-25

939

我们选定的任务是让InternVL-2B生成文生图提示词，这个任务需要VLM对图片有格式化的描述并输出。让我们来一起完成一个用VLM模型进行冷笑话生成，让你的模型说出很逗的冷笑话吧。在这里，我们微调InterenVL使用xtuner。部署InternVL使用lmdeploy。

【书生大模型实战营（暑假场）】进阶任务三 LMDeploy 量化部署实践闯关任务

Tongcheng_98的博客

08-27

1107

和。

书生·浦语大模型实战营（第三期）进阶岛第 4关 InternVL 多模态模型部署微调实践

Pythonliu7的博客

08-25

1174

是一种用于的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息，InternVL 可以在多模态领域取得更好的表现对于InternVL这个模型来说，它vision模块就是一个微调过的ViT，llm模块是一个InternLM的模型。对于视觉模块来说，它的特殊之处在Dynamic High Resolution。

InternVL 多模态模型部署微调实践-进阶

wtt88的专栏

08-19

607

让我们一起修改XTuner下 InternVL的config，文件在： /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py。在这里，我们微调InterenVL使用xtuner。之后我们使用lmdeploy自带的pipeline工具进行开箱即用的推理流程，首先我们新建一个文件。推理后我们发现直接使用2b模型不能很好的讲出梗，现在我们要对这个2b模型进行微调。

（第三期）书生大模型实战营——InternVL(冷笑话大师)部署微调实践

a_blade_of_grass的博客

08-21

1506

Pixel Shuffle在超分任务中是一个常见的操作，PyTorch中有官方实现，即nn.PixelShuffle(upscale_factor) 该类的作用就是将一个tensor中的元素值进行重排列，假设tensor维度为[B, C, H, W], PixelShuffle操作不仅可以改变tensor的通道数，也会改变特征图的大小。对于输入的图片，首先resize成448的倍数，然后按照预定义的尺寸比例从图片上crop对应的区域。这里我们也为大家准备好了可以直接进行微调的数据集。进入XTuner目录。

Python项目--基于计算机视觉的手势识别控制系统

exlink2012的专栏

04-23

1796

随着人机交互技术的快速发展，传统的键盘、鼠标等输入设备已经不能满足人们对自然、直观交互的需求。手势识别作为一种非接触式的人机交互方式，具有操作自然、交互直观的特点，在智能家居、游戏控制、虚拟现实等领域有着广泛的应用前景。本项目旨在开发一个基于计算机视觉的手势识别控制系统，通过摄像头捕获用户的手部动作，实时识别手势类型，并将识别结果转化为相应的控制命令，实现对计算机或其他设备的非接触式控制。

人工智能(AI)对网络管理的影响

最新发布

ITmoster的博客

04-25

551

AI正从工具演变为网络管理的“核心大脑”，其价值不仅在于效率提升，更在于为复杂问题提供系统性解决方案。

LibrePhotos本地部署打造个人云相册安全存储和分享家庭照片(1)

YYDsis的博客

04-24

1256

手机里塞满了珍贵回忆，却担心一不小心就被偷看？别怕，今天我就教你一个绝招——使用自建私有云相册。这不仅比Google Photos更安全可控，还无需公网IP或域名，因为咱们有cpolar这个神器来帮忙打通内网壁垒！跟着我一起，让你的照片管理从此变得既酷又安全吧！

计算机视觉各类任务评价指标详解

qq_47898999的博客

04-25

884

计算机视觉各类任务评价指标详解

tokenizer的用法

大多_C的博客

04-25

429

可以基于现有 tokenizer 进行修改，如添加自定义的 token（tokenizer.add_tokens([“新词”])），从而扩展词汇表，此时可调用 tokenizer.resize_token_embeddings(model) 更新模型嵌入层。]}，有时还会包含其他信息比如 “token_type_ids”、“offset_mapping”（用于对齐）等。• return_tensors: 指定返回类型，如 “pt”（PyTorch tensor）、“tf” 或 “np”（NumPy 数组）

视频汇聚平台智能边缘分析一体机视频智能分析平台智能分析区域入侵检测算法

LntonCEC的博客

04-22

649

这种设备的广泛应用不仅能够提高安全防范的效率和准确性，还能够为各类场所的安全管理提供强大的支持和帮助，从而为社会的稳定和发展做出了积极的贡献。这种设备通过集成图像处理、智能识别和实时监测等先进技术，能够对特定区域内的入侵行为进行有效的监控和识别，从而及时地发现潜在的安全风险并采取适当的应对措施。智能边缘分析一体机的区域入侵检测功能能够提高安全监控系统的警戒性和反应速度，有效减少安全风险和事件发生的可能性，为各类场所（如公共场所、企业园区、仓库等）的安全管理带来极大的便利和帮助。

InternVL微调

07-17

InternVL是一种基于预训练模型的视频语言表示学习技术，它通过结合多模态学习（如视觉和文本）的优势来提升视频理解的能力。InternVL通常涉及到以下几个步骤： 1. **预训练模型**：首先使用大规模的静态图像和文本数据对基础的视觉和语言模型（比如ViT、BERT等）进行预训练，让它们学习到跨模态的通用特征。 2. **视频微调**：然后将预训练好的模型应用到视频上，特别是在帧级或者短片段级别，进行进一步的微调。这一步会利用视频的独特结构，如连续的动作和上下文信息。 3. **多任务学习**：InternVL通常会涉及多个下游任务，如视频描述生成、动作识别、视频检索等，通过这些任务的联合训练，模型能够更好地捕捉视频内容和语义。 4. **泛化能力**：由于微调过程中的多任务学习，InternVL的模型能够在多种相关场景中展现出较好的泛化性能。