LLaVA-Mini 项目安装与配置指南
1. 项目基础介绍
LLaVA-Mini 是一个高效的大规模多模态模型,能够有效地支持图像、高分辨率图像和视频的理解。该模型的特点是仅使用一个视觉令牌(vision token)来代表每个图像,从而提高了图像和视频理解的效率,减少了计算量、响应延迟和显存占用。
主要编程语言:Python
2. 项目使用的关键技术和框架
- 大规模多模态模型(LMM):LLaVA-Mini 继承了 LLaVA 项目的特点,是一个统一的多模态模型。
- 视觉令牌(Vision Token):使用单个视觉令牌来代表图像,大大减少了模型的参数和计算量。
- 视觉指令调整(Visual Instruction Tuning):通过调整视觉指令来优化模型的视觉理解能力。
3. 项目安装和配置的准备工作
在开始安装之前,请确保您的系统中已安装以下软件:
- Python 3.10
- CUDA (用于GPU加速,如果需要处理视频或大量图像数据,推荐安装)
- conda (Python环境管理器)
详细安装步骤
-
创建虚拟环境
首先,创建一个新的虚拟环境并激活它:
conda create -n llavamini python=3.10 -y conda activate llavamini -
安装依赖
在虚拟环境中安装项目所需的依赖:
pip install -e . pip install -e ".[train]" pip install flash-attn --no-build-isolation -
运行示例
安装完成后,您可以通过以下命令运行图像理解的示例:
CUDA_VISIBLE_DEVICES=0 python llavamini/eval/run_llava_mini.py \ --model-path ICTNLP/llava-mini-llama-3.1-8b \ --image-file llavamini/serve/examples/baby_cake.png \ --conv-mode llava_llama_3_1 --model-name "llava-mini" \ --query "蛋糕上写的是什么?"如果您的VRAM内存小于20GB,建议使用
--load-8bit参数来减少内存占用。 -
启动服务
若要启动交互式界面,需要运行以下脚本来启动控制器、模型工作节点和Web界面:
python -m llavamini.serve.controller --host 0.0.0.0 --port 10000 & CUDA_VISIBLE_DEVICES=0 python -m llavamini.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path ICTNLP/llava-mini-llama-3.1-8b --model-name llava-mini & python -m llavamini.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload --port 7860启动完成后,您可以通过浏览器访问
http://localhost:7860来与模型交互。
以上步骤即为 LLaVA-Mini 项目的详细安装和配置指南。按照这些步骤操作,您应该能够成功安装并运行该项目。如果您在安装过程中遇到任何问题,请查阅项目的官方文档或通过 GitHub 提交 Issue。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



