安装InternVL

山山而川_R

已于 2024-05-10 00:43:20 修改

阅读量1.1k

点赞数 2

分类专栏： InternVL 文章标签：深度学习人工智能

于 2024-05-10 00:35:31 首次发布

本文链接：https://blog.youkuaiyun.com/m0_60657960/article/details/138637726

版权

InternVL 专栏收录该内容

3 篇文章

订阅专栏

InternVL 官网

interVL 安装

完全删除环境和环境中的所有软件包

conda remove -n env_name --all

安装

克隆此存储库：

git clone https://github.com/OpenGVLab/InternVL.git

创建conda虚拟环境并激活：

conda create -n inter python=3.9 -y
conda activate inter

安装PyTorch>=2.0并torchvision>=0.15.2使用CUDA>=11.6：

例如，要torch==2.0.1安装CUDA==11.8：

conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia
# or
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

安装flash-attn==2.3.6：

pip install flash-attn==2.3.6 --no-build-isolation

安装timm==0.9.12并mmcv-full==1.6.2：

pip install timm==0.9.12
pip install -U openmim
mim install mmcv-full==1.6.2  # (optional, for mmsegmentation)

安装transformers==4.37.2：

pip install transformers==4.37.2

安装其他要求：

pip install opencv-python termcolor yacs pyyaml scipy
pip install deepspeed==0.13.5
pip install pycocoevalcap tqdm

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

山山而川_R

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

（二）关于InternVL2的环境安装

昆兰.沃斯的博客

10-29

3068

以InternVL2作为基础，介绍多模态大模型的训练、推理以及其它相关知识

LLM - 使用 XTuner 指令微调多模态大语言模型(InternVL2) 教程

AGI

09-25

1576

XTuner 是高效、灵活且功能齐全的大语言模型和多模态模型微调工具，支持简单配置和轻量级运行，通过配置文件，封装大部分微调场景，降低微调的门槛，同时，支持多种预训练模型，如 InternVL 等，支持多种数据集格式，包括文本、图像或视频等。

1 条评论您还未登录，请先登录后发表或查看评论

internVL的本地部署微调实践——L2G4

weixin_57253447的博客

02-16

1127

成功部署和微调了Video-LLM模型。首先，配置了训练和推理环境，安装了必要的依赖包。接着，使用LMDeploy进行模型部署，并通过网页应用体验了与InternVL的对话功能。在微调阶段，使用了FoodieQA数据集，通过XTuner工具对InternVL模型进行了LoRA微调，解决了模型在识别特定食物时的错误。微调后，模型在识别肠粉和锅包肉等食物时的准确性显著提升。

进阶岛 - InternVL 多模态模型部署微调实践

纸上得来终觉浅绝知此事要躬行

08-22

2203

InternVL 是一种用于多模态任务的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息，InternVL 可以在多模态领域取得更好的表现。

internvl-chat部署

liuzhenghua66的博客

05-29

1645

InternVL1.5是一个开源的视觉模型，效果接近gpt-4vgithub地址：https://github.com/OpenGVLab/InternVL体验地址：https://internvl.opengvlab.com/

MLM之InternVL：InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

05-15

2995

MLM之InternVL：InternVL(GPT-4V的开创性开源替代品/通过开源套件缩小与商业多模态模型的差距)的简介、安装和使用方法、案例应用之详细攻略目录 InternVL的简介 InternVL的安装和使用方法 InternVL的案例应用 InternVL的简介 InternVL将ViT扩展到6B参数，并将其与LLM对齐。InternVL是一个开源的多模态视觉语言模型系列，它可以解决视觉与语言交叉领域的各种任务。InternVL的主要特点和

InternVL本地部署

weixin_42569775的博客

12-17

366

【代码】InternVL本地部署。

InternVL 多模态模型部署微调实践

qq_73754220的博客

11-14

2083

多模态大语言模型 ( Multimodal Large Language Model) 是指能够处理和融合多种不同类型数据(如文本、图像、音频、视频等) 的大型人工智能模型。这些模型通常基于深度学习技术，能够理解和生成多种模态的数据，从而在各种复杂的应用场景中表现出强大的能力。常见的MLLM多模态研究的重点是不同模态特征空间的对齐我们主要通过## 1.导入相关依赖包## 2.使用你的模型初始化推理管线## 3.读取图片（此处使用PIL读取也行）## 4.配置推理参数。

InternVL3: 利用AI处理文本、图像、视频、OCR和数据分析

最新发布

独立开发，substack顶级编辑

05-13

231

InternVL3 是一款突破性的视觉-语言模型，通过无缝集成视觉和语言处理，显著提升了多模态理解、推理和感知能力。它在图像-文本、视频-文本和纯文本数据的处理上表现出色，支持从1B到78B的多种参数规模，适应不同计算需求。InternVL3引入了可变视觉位置编码（V2PE）和原生多模态预训练，优化了OCR、工业图像分析、3D感知和GUI交互等复杂任务。用户可通过简单的安装步骤在Google Colab上快速体验其功能，适用于广泛的现实场景应用。

（一）多模态大模型系列-InternVL2

昆兰.沃斯的博客

10-29

2100

以InternVL2作为基础，介绍多模态大模型的训练、推理以及其它相关知识

基于开源大型lmm模型生成标签对InternVL2-1B等轻量lmm模型进行微调

a486259的博客

10-08

345

基于开源大型lmm模型生成标签对InternVL2-1B等轻量lmm模型进行微调，提升InternVL2-1B等轻量lmm模型的能力。本实验在window下，基于3060 12g显卡进行实验。基于qwen2-vl 7b模型生成标签（电脑显存大的话可以考虑qwen2-vl 72b模型），然后对InternVL2-1B进行Lora微调。以voc2012_val里面的3000多个图片为训练数据，耗时1小时完成。最后测试微调前后的模型，可以发现微调后的InternVL2-1B模型在特定任务上（目标与数量识别）的能力

InternVL 项目安装和配置指南

gitblog_07903的博客

09-13

473

InternVL 项目安装和配置指南 InternVL 项目地址: https://gitcode.com/gh_mirrors/in/InternVL 1. 项目基础介绍...

InternVL 部署微调实践-训练微调模型打造AI美食家

NoemPol的博客

12-30

881

InternVL部雪微调实践-训练微调模型打造AI美食家

InternVL 部署微调实践

weixin_51449774的博客

08-20

1031

我们选定的任务是让InternVL-2B生成文生图提示词，这个任务需要VLM对图片有格式化的描述并输出。让我们来一起完成一个用VLM模型进行冷笑话生成，让你的模型说出很逗的冷笑话吧。在这里，我们微调InterenVL使用xtuner。部署InternVL使用lmdeploy。

InternVL-Chat-V1-5的安装与使用教程

gitblog_02789的博客

12-12

415

InternVL-Chat-V1-5的安装与使用教程 InternVL-Chat-V1-5 项目地址: https://gitcode.com/hf_mirrors/ai-gitcode/InternVL-Chat-V1-5 ...

InternVL 多模态模型部署微调实践-进阶

wtt88的专栏

08-19

625

让我们一起修改XTuner下 InternVL的config，文件在： /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py。在这里，我们微调InterenVL使用xtuner。之后我们使用lmdeploy自带的pipeline工具进行开箱即用的推理流程，首先我们新建一个文件。推理后我们发现直接使用2b模型不能很好的讲出梗，现在我们要对这个2b模型进行微调。

多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）

AI相关从业分享

07-12

1977

基于之前研究。

【万字长文】【InternVL】InternVL2-26B模型部署全攻略

艰难困苦，玉汝于成。

09-27

4764

LMDeploy 是一个用于压缩、部署、服务 LLM 的工具包，由 MMRazor 和 MMDeploy 团队开发。

internvl项目详解

04-04

### InternVL 项目详细介绍 #### 1. 项目概述 InternVL 是一个多模态预训练模型，旨在处理图像和文本之间的跨模态任务。该项目提供了强大的视觉-语言理解能力，并支持多种应用场景，例如图文检索、视觉问答 (VQA) 和图像描述生成等[^3]。 #### 2. 安装与配置指南为了成功运行 InternVL，需按照以下说明完成环境搭建： ##### 环境依赖确保已安装 Python（建议版本 >=3.8），并创建虚拟环境以隔离依赖项。以下是必要的库及其最低版本要求： ```bash pip install torch>=1.9.0 torchvision transformers numpy scikit-image ``` ##### 下载模型权重访问官方仓库链接 [https://gitcode.com/gh_mirrors/in/InternVL](https://gitcode.com/gh_mirrors/in/InternVL)，下载预训练模型文件以及相关脚本。具体路径如下： ```plaintext /path/to/model_weights/ ├── config.json # 配置文件 ├── pytorch_model.bin # 模型权重 └── tokenizer_config.json # Tokenizer 设置 ``` ##### 数据准备如果计划执行微调操作，则需要准备好标注好的数据集。推荐的数据格式为 JSON 文件，结构示例如下： ```json [ {"image_path": "path_to_image_1.jpg", "text": "A man riding a bicycle."}, {"image_path": "path_to_image_2.jpg", "text": "Two dogs playing in the park."} ] ``` --- ### 使用方法详解 #### 图文匹配任务通过加载预训练模型实例化对象后，可输入图片路径及对应文字描述来获取相似度分数。 ```python from internvl import InternVLModel, InternVLProcessor # 初始化处理器和模型 processor = InternVLProcessor.from_pretrained("/path/to/pretrained/") model = InternVLModel.from_pretrained("/path/to/pretrained/") # 加载样例数据 image_path = "/path/to/example_image.jpg" text_input = "An image of a cat." inputs = processor(image=image_path, text=text_input, return_tensors="pt") outputs = model(**inputs) logits_per_image = outputs.logits_per_image.cpu().detach().numpy() # shape: (batch_size, num_texts) print(f"Similarity Score: {logits_per_image}") ``` #### 可视化问答 (Visual Question Answering, VQA) 针对给定的一张图片提问自然语言问题，返回最可能的答案选项。 ```python question = "What is the color of this car?" vqa_inputs = processor(image="/path/to/car_image.png", question=question, return_tensors="pt") vqa_outputs = model.vqa_forward(vqa_inputs.input_ids, vqa_inputs.attention_mask, **vqa_inputs.image_features) predicted_answer_index = int(torch.argmax(vqa_outputs)) answer_list = ["red", "blue", "green"] # 假设这是候选答案列表 print(f"The predicted answer is '{answer_list[predicted_answer_index]}'.") ``` --- ### Mini-InternVL 的特点与发展作为 InternVL 的轻量化变体，Mini-InternVL 展现了卓越的小规模参数表现力。其核心改进包括但不限于以下几个方面[^4]: - 开发了一款名为 InternViT-300M 的高效视觉编码器，具备较强的泛化能力和鲁棒性； - 统一了模型架构、数据格式及时序安排标准，从而简化了向下游任务迁移的过程； - 实验验证显示，在仅占用少量资源的前提下即可达到接近主流大模型的效果水平；此外还进行了深入分析探讨不同数量级样本对于领域适配效果的影响规律，为进一步优化 MLLMs 应用于专业化场景奠定了理论基础。 ---