OpenGVLab/InternGPT 项目安装与部署完全指南

原创于 2025-06-12 09:08:36 发布 · 368 阅读

CC 4.0 BY-SA版权

OpenGVLab/InternGPT 项目安装与部署完全指南

InternGPT InternGPT (iGPT) is an open source demo platform where you can easily showcase your AI models. Now it supports DragGAN, ChatGPT, ImageBind, multimodal chat like GPT-4, SAM, interactive image editing, etc. Try it at igpt.opengvlab.com (支持DragGAN、ChatGPT、ImageBind、SAM的在线Demo系统) 项目地址: https://gitcode.com/gh_mirrors/in/InternGPT

项目概述

OpenGVLab/InternGPT 是一个强大的多模态交互式AI系统，集成了视觉问答、图像分割、文本生成图像等多种AI能力。本文将详细介绍如何从零开始安装和部署这个项目。

系统要求

在开始安装前，请确保您的系统满足以下基本要求：

操作系统：Linux（推荐Ubuntu 20.04或更高版本）
Python：3.8及以上版本
PyTorch：1.12及以上版本
CUDA：11.6及以上版本（需与GPU驱动兼容）
编译器：GCC & G++ 5.4+
GPU内存：至少17GB（用于加载基础工具）

环境准备

1. Anaconda安装

Anaconda是管理Python环境的理想工具，建议使用它来创建隔离的项目环境。

安装步骤：

从Anaconda官网获取适合您系统的安装包
执行安装脚本
初始化conda环境

验证安装：

conda --version

2. 获取项目代码

使用以下命令获取项目代码：

git clone git://github.com/OpenGVLab/InternGPT.git
cd InternGPT

常见问题处理：

如果git未安装：sudo apt install git
下载速度慢时可尝试更换协议为git://

模型准备

项目依赖多个预训练模型，这些模型已发布在公开模型库中。

模型下载与配置

下载模型包并放置在项目根目录的model_zoo文件夹中
特别注意HuskyVQA模型需要额外处理：
- 需要先获取LLaMA模型的原始权重
- 将LLaMA权重放置在model_zoo/llama/7B目录
- 项目会自动合并生成最终的HuskyVQA模型

目录结构应如下所示：

InternGPT/
├── model_zoo/
│   ├── llama/
│   │   └── 7B/
│   │       ├── checklist.chk
│   │       ├── consolidated.00.pth
│   │       └── params.json
│   └── llama_7B_hf/
│       ├── config.json
│       ├── generation_config.json
│       └── pytorch_model.bin

依赖安装

1. 创建虚拟环境

conda create -n igpt python=3.8
conda activate igpt

2. 安装PyTorch

conda install pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0 pytorch-cuda=11.6 -c pytorch -c nvidia

3. 安装其他依赖

pip install -r requirements.txt

4. 安装Detectron2

Detectron2是Facebook Research开发的计算机视觉库，需要从源码编译安装。

先确保已安装必要的编译工具：

apt-get install gcc g++ make

然后安装Detectron2：

git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

验证CUDA支持：

python -c "import torch; from torch.utils.cpp_extension import CUDA_HOME; print(torch.cuda.is_available(), CUDA_HOME)"

启动服务

使用以下命令启动服务：

python -u app.py \
--load "ImageOCRRecognition_cuda:0,Text2Image_cuda:0,SegmentAnything_cuda:0,ActionRecognition_cuda:0,VideoCaption_cuda:0,DenseCaption_cuda:0,ReplaceMaskedAnything_cuda:0,LDMInpainting_cuda:0,SegText2Image_cuda:0,ScribbleText2Image_cuda:0,Image2Scribble_cuda:0,Image2Canny_cuda:0,CannyText2Image_cuda:0,StyleGAN_cuda:0,Anything2Image_cuda:0,HuskyVQA_cuda:0" -e -p 3456 --https

启动后，可通过浏览器访问：https://{您的IP}:3456