文章目录
环境配置
- 下载代码
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
- 环境配置
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip # enable PEP 660 support
pip install -e .
- 安装 训练相关的包
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
Demo 测试
Hugging Face
- Demo测试
创建demo.py
放在项目目录下
代码如下:
from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path
from llava.eval.run_llava import eval_model
model_path = "liuhaotian/llava-v1.5-7b"
prompt = "What are the things I should be cautious about when I visit here?"
image_file = "https://llava-vl.github.io/static/images/view.jpg"
args = type('Args', (), {
"model_path": model_path,
"model_base": None,
"model_name": get_model_name_from_path(model_path),
"query": prompt,
"conv_mode": None,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
结果输出如下:
CLI Inference
python -m llava.serve.cli \
--model-path liuhaotian/llava-v1.5-7b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--load-4bit
结果评估
下载 eval.zip,并解压到./playground/data/eval
VQAv2
数据集简介
实操
-
数据集下载
下载 test2015.zip 放在./playground/data/eval/vqav2
, 解压
-
多GPU 推理
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash scripts/v1_5/eval/vqav2.sh
生成的结果文件在LLaVA/playground/data/eval/vqav2/answers_upload/llava_vqav2_mscoco_test-dev2015/llava-v1.5-13b.json
- 结果测评
提交结果到 vqa测评网站
vqav2.sh
代码解释
这段代码是一个 Bash 脚本,用于在多个 GPU 上并行执行模型评估,并将结果合并到一个输出文件中。
#!/bin/bash
这行指定了脚本的解释器为 Bash。
gpu_list="${CUDA_VISIBLE_DEVICES:-0}"
这行代码获取环境变量 CUDA_VISIBLE_DEVICES
的值,如果该变量未设置,则默认使用 0
。这个变量通常用于指定可用的 GPU 设备。
IFS=',' read -ra GPULIST <<< "$gpu_list"
这行代码将 gpu_list
按逗号分割,并将结果存储在数组 GPULIST
中。IFS
是内部字段分隔符,设置为逗号以便正确分割。
CHUNKS=${#GPULIST[@]}
这行代码计算 GPULIST
数组的长度(即 GPU 的数量),并将其存储在变量 CHUNKS
中。
CKPT="llava-v1.5-13b"
SPLIT="llava_vqav2_mscoco_test-dev2015"
这两行定义了模型检查点的名称和数据集的分割名称。
for IDX in $(seq 0 $((CHUNKS-1))); do
这行代码开始一个循环,IDX
从 0
到 CHUNKS-1
,用于遍历每个 GPU。
CUDA_VISIBLE_DEVICES=${GPULIST[$IDX]} python -m llava.eval.model_vqa_loader \
这行代码设置当前循环中使用的 GPU,并调用 Python 脚本 model_vqa_loader
。
--model-path liuhaotian/llava-v1.5-13b \
--question-file ./playground/data/eval/vqav2/$SPLIT.jsonl \
--image-folder ./playground/data/eval/vqav2/test2015 \
--answers-file ./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/${CHUNKS}_${IDX}.jsonl \
--num-chunks $CHUNKS \
--chunk-idx $IDX \
--temperature 0 \
--conv-mode vicuna_v1 &
这些行是传递给 Python 脚本的参数:
-
--model-path
指定模型的路径。 -
--question-file
指定问题文件的路径。
-
--image-folder
指定图像文件夹的路径。 -
--answers-file
指定输出答案文件的路径,文件名中包含当前的CHUNKS
和IDX
。
-
--num-chunks
和--chunk-idx
用于指定当前处理的块的数量和索引。 -
--temperature
和--conv-mode
是模型评估的其他参数。 -
&
符号表示在后台运行该命令,以便可以同时启动多个进程。
done
结束循环。
wait
这行代码等待所有后台进程完成。
output_file=./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/merge.jsonl
定义合并后的输出文件的路径。
# Clear out the output file if it exists.
> "$output_file"
如果输出文件已存在,则清空该文件。
# Loop through the indices and concatenate each file.
for IDX in $(seq 0 $((CHUNKS-1))); do
cat ./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/${CHUNKS}_${IDX}.jsonl >> "$output_file"
done
这段代码循环遍历每个块的索引,将每个生成的答案文件的内容追加到 output_file
中。
python scripts/convert_vqav2_for_submission.py --split $SPLIT --ckpt $CKPT
最后,这行代码调用一个 Python 脚本 convert_vqav2_for_submission.py
,用于将合并后的结果转换为提交格式,传递分割名称和检查点名称作为参数。
GQA
VisWiz
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/vizwiz.sh
- 提交测评结果到VisWiz网站
ScienceQA
- 从ScienceQA中的
data/scienceqa
下载images
,pid_splits.json
,problems.json
- 下载
images
的脚本如下
mkdir images
cd images
wget https://scienceqa.s3.us-west-1.amazonaws.com/images/train.zip
wget https://scienceqa.s3.us-west-1.amazonaws.com/images/val.zip
wget https://scienceqa.s3.us-west-1.amazonaws.com/images/test.zip
unzip -q train.zip
unzip -q val.zip
unzip -q test.zip
rm train.zip
rm val.zip
rm test.zip
- 单GPU推理和评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/sqa.sh
POPE
- 从POPE中下载
coco
- 下载
val2014.zip
wget http://images.cocodataset.org/zips/val2014.zip
- 评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/pope.sh
MME
- 下载
MME_Benchmark_release_version.zip
wget https://huggingface.co/datasets/darkyarding/MME/resolve/main/MME_Benchmark_release_version.zip
- 下载
eval_tool.zip
wget https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/blob/Evaluation/tools/eval_tool.zip
- 评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mme.sh
MMBench
-
下载mmbench_dev_20230712.tsv 到文件夹
./playground/data/eval/mmbench
-
评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmbench.sh
MMBench-CN
-
下载mmbench_dev_cn_20231003.tsv 到文件夹
./playground/data/eval/mmbench_cn
(这个文件夹需要自己新建)
-
评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmbench_cn.sh
SEED-Bench
- 下载 SEED-Bench
git clone https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2
将SEED-Bench-2-image.zip.001
. SEED-Bench-2-image.zip.001
…SEED-Bench-2-image.zip.072
先合并后解压。
cat SEED-Bench-2-image.zip* > SEED-Bench-2-image.zip
unzip SEED-Bench-2-image.zip
LLaVA-Bench-in-the-Wild
- 下载数据集
git clone https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild
- 获取openai key
登录网站 openai-key,点击创建新的api-key, 并复制该api key
- 评估
export OPENAI_API_KEY="your_api_key_here"
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/llavabench.sh
MM-Vet
- 下载数据集
wget https://github.com/yuweihao/MM-Vet/releases/download/v1/mm-vet.zip
- 评估
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmvet.sh
- 结果评估