LLava 代码实操

zyw2002

已于 2025-02-08 09:34:11 修改

阅读量1.1k

点赞数 7

分类专栏：大模型和多模态文章标签： llava

于 2025-02-06 10:27:04 首次发布

本文链接：https://blog.youkuaiyun.com/zyw2002/article/details/145369582

版权

大模型和多模态专栏收录该内容

9 篇文章

订阅专栏

文章目录

环境配置
Demo 测试
- Hugging Face
- CLI Inference
结果评估

环境配置

下载代码

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

环境配置

conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .

安装训练相关的包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

Demo 测试

Hugging Face

Demo测试
创建demo.py 放在项目目录下

代码如下：

from llava.model.builder import load_pretrained_model
from llava.mm_utils import get_model_name_from_path
from llava.eval.run_llava import eval_model


model_path = "liuhaotian/llava-v1.5-7b"
prompt = "What are the things I should be cautious about when I visit here?"
image_file = "https://llava-vl.github.io/static/images/view.jpg"

args = type('Args', (), {
    "model_path": model_path,
    "model_base": None,
    "model_name": get_model_name_from_path(model_path),
    "query": prompt,
    "conv_mode": None,
    "image_file": image_file,
    "sep": ",",
    "temperature": 0,
    "top_p": None,
    "num_beams": 1,
    "max_new_tokens": 512
})()

eval_model(args)

结果输出如下：
在这里插入图片描述

CLI Inference

python -m llava.serve.cli \
    --model-path liuhaotian/llava-v1.5-7b \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-4bit

在这里插入图片描述

结果评估

下载 eval.zip，并解压到./playground/data/eval
在这里插入图片描述

VQAv2

数据集简介

实操

数据集下载
下载 test2015.zip 放在./playground/data/eval/vqav2 , 解压
多GPU 推理

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash scripts/v1_5/eval/vqav2.sh

生成的结果文件在LLaVA/playground/data/eval/vqav2/answers_upload/llava_vqav2_mscoco_test-dev2015/llava-v1.5-13b.json
在这里插入图片描述

结果测评
提交结果到 vqa测评网站

vqav2.sh 代码解释

这段代码是一个 Bash 脚本，用于在多个 GPU 上并行执行模型评估，并将结果合并到一个输出文件中。

#!/bin/bash

这行指定了脚本的解释器为 Bash。

gpu_list="${CUDA_VISIBLE_DEVICES:-0}"

这行代码获取环境变量 CUDA_VISIBLE_DEVICES 的值，如果该变量未设置，则默认使用 0。这个变量通常用于指定可用的 GPU 设备。

IFS=',' read -ra GPULIST <<< "$gpu_list"

这行代码将 gpu_list 按逗号分割，并将结果存储在数组 GPULIST 中。IFS 是内部字段分隔符，设置为逗号以便正确分割。

CHUNKS=${#GPULIST[@]}

这行代码计算 GPULIST 数组的长度（即 GPU 的数量），并将其存储在变量 CHUNKS 中。

CKPT="llava-v1.5-13b"
SPLIT="llava_vqav2_mscoco_test-dev2015"

这两行定义了模型检查点的名称和数据集的分割名称。

for IDX in $(seq 0 $((CHUNKS-1))); do

这行代码开始一个循环，IDX 从 0 到 CHUNKS-1，用于遍历每个 GPU。

    CUDA_VISIBLE_DEVICES=${GPULIST[$IDX]} python -m llava.eval.model_vqa_loader \

这行代码设置当前循环中使用的 GPU，并调用 Python 脚本 model_vqa_loader。

        --model-path liuhaotian/llava-v1.5-13b \
        --question-file ./playground/data/eval/vqav2/$SPLIT.jsonl \
        --image-folder ./playground/data/eval/vqav2/test2015 \
        --answers-file ./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/${CHUNKS}_${IDX}.jsonl \
        --num-chunks $CHUNKS \
        --chunk-idx $IDX \
        --temperature 0 \
        --conv-mode vicuna_v1 &

这些行是传递给 Python 脚本的参数：

--model-path 指定模型的路径。
--question-file 指定问题文件的路径。
--image-folder 指定图像文件夹的路径。
--answers-file 指定输出答案文件的路径，文件名中包含当前的 CHUNKS 和 IDX。
--num-chunks 和 --chunk-idx 用于指定当前处理的块的数量和索引。
--temperature 和 --conv-mode 是模型评估的其他参数。
& 符号表示在后台运行该命令，以便可以同时启动多个进程。

done

结束循环。

wait

这行代码等待所有后台进程完成。

output_file=./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/merge.jsonl

定义合并后的输出文件的路径。
在这里插入图片描述

# Clear out the output file if it exists.
> "$output_file"

如果输出文件已存在，则清空该文件。

# Loop through the indices and concatenate each file.
for IDX in $(seq 0 $((CHUNKS-1))); do
    cat ./playground/data/eval/vqav2/answers/$SPLIT/$CKPT/${CHUNKS}_${IDX}.jsonl >> "$output_file"
done

这段代码循环遍历每个块的索引，将每个生成的答案文件的内容追加到 output_file 中。

python scripts/convert_vqav2_for_submission.py --split $SPLIT --ckpt $CKPT

最后，这行代码调用一个 Python 脚本 convert_vqav2_for_submission.py，用于将合并后的结果转换为提交格式，传递分割名称和检查点名称作为参数。

GQA

下载 gqa数据集和对应的评测脚本

VisWiz

下载test.json ，并下载和解压test.zip 放到./playground/data/eval/vizwiz 文件夹下。
单GPU推理

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/vizwiz.sh

在这里插入图片描述

提交测评结果到VisWiz网站

ScienceQA

从ScienceQA中的data/scienceqa 下载 images, pid_splits.json, problems.json
下载images 的脚本如下

mkdir images
cd images

wget https://scienceqa.s3.us-west-1.amazonaws.com/images/train.zip
wget https://scienceqa.s3.us-west-1.amazonaws.com/images/val.zip
wget https://scienceqa.s3.us-west-1.amazonaws.com/images/test.zip

unzip -q train.zip
unzip -q val.zip
unzip -q test.zip

rm train.zip
rm val.zip
rm test.zip

单GPU推理和评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/sqa.sh

在这里插入图片描述

POPE

从POPE中下载coco
下载val2014.zip

wget http://images.cocodataset.org/zips/val2014.zip

在这里插入图片描述

评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/pope.sh

在这里插入图片描述

MME

下载 MME_Benchmark_release_version.zip

wget https://huggingface.co/datasets/darkyarding/MME/resolve/main/MME_Benchmark_release_version.zip

下载eval_tool.zip

wget https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/blob/Evaluation/tools/eval_tool.zip

在这里插入图片描述

评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mme.sh

在这里插入图片描述

MMBench

下载mmbench_dev_20230712.tsv 到文件夹./playground/data/eval/mmbench
评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmbench.sh

在这里插入图片描述

MMBench-CN

下载mmbench_dev_cn_20231003.tsv 到文件夹./playground/data/eval/mmbench_cn (这个文件夹需要自己新建)
评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmbench_cn.sh

在这里插入图片描述

SEED-Bench

下载 SEED-Bench

git clone https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2

在这里插入图片描述
将SEED-Bench-2-image.zip.001. SEED-Bench-2-image.zip.001…SEED-Bench-2-image.zip.072 先合并后解压。

cat SEED-Bench-2-image.zip* >  SEED-Bench-2-image.zip
unzip SEED-Bench-2-image.zip

LLaVA-Bench-in-the-Wild

下载数据集

git clone https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild

在这里插入图片描述

获取openai key
登录网站 openai-key，点击创建新的api-key, 并复制该api key
评估

export OPENAI_API_KEY="your_api_key_here"
CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/llavabench.sh

在这里插入图片描述

MM-Vet

下载数据集

wget https://github.com/yuweihao/MM-Vet/releases/download/v1/mm-vet.zip

评估

CUDA_VISIBLE_DEVICES=0 bash scripts/v1_5/eval/mmvet.sh

在这里插入图片描述

结果评估