VisualAgentBench 使用与启动指南-优快云博客

VisualAgentBench 使用与启动指南

1. 项目介绍

VisualAgentBench（VAB）是一个专为评估和发展大型多模态模型（LMMs）作为视觉基础代理的基准。它包含了五个不同的环境，涵盖了三种代表性的视觉代理任务类型：Embodied（具身）、GUI（图形用户界面）和Visual Design（视觉设计）。VAB的目标是通过在轨迹上训练开放的LLM/LMM，来推动视觉基础代理的能力发展。

2. 项目快速启动

以下是快速启动VisualAgentBench的步骤：

首先，克隆项目仓库并安装依赖：

cd VisualAgentBench
conda create -n vab python=3.9
conda activate vab
pip install -r requirements.txt

确保Docker已经正确安装：

docker ps

然后，配置代理：

在configs/agents/openai-chat.yaml中填写你的OpenAI API Key。

你可以使用以下命令检查代理是否配置正确：

python -m src.client.agent_test

接着，启动任务服务器：

python -m src.start_task -a

此命令将启动四个VAB-Minecraft任务的工作进程，并自动将它们连接到端口5000上的控制器。执行此命令后，请等待大约1分钟，以便任务设置完成。

如果终端显示".... 200 OK"，你可以在另一个终端中启动分配器：

python -m src.assigner --auto-retry

这样就可以开始执行任务了。

3. 应用案例和最佳实践

为了更好地使用VisualAgentBench，以下是一些应用案例和最佳实践：

案例一：使用VAB-Minecraft环境进行Embodied任务的研究。可以通过调整configs/assignments/omnigibson.yaml配置文件来启动不同数量的任务。
案例二：在VAB-WebArena-Lite环境中进行GUI任务的测试。请确保仔细阅读其单独的设置说明，因为它基于WebArena和VisualWebArena进行了修改。

4. 典型生态项目

VisualAgentBench依赖于以下几个典型的生态项目：

AgentBench：作为本项目的基础框架，用于高效可靠的并行代理评估。
WebArena和VisualWebArena：为VAB-WebArena-Lite数据集提供测试框架和数据源。
OmniGibson：作为VAB-OmniGibson的环境。
JARVIS-1：VAB-Minecraft的框架改编自JARVIS-1的管道。
STEVE-1：作为VAB-Minecraft的动作执行器。

通过以上指南，你可以开始使用VisualAgentBench，并探索大型多模态模型在视觉代理任务中的潜力。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考