VisualAgentBench 使用与启动指南
1. 项目介绍
VisualAgentBench(VAB)是一个专为评估和发展大型多模态模型(LMMs)作为视觉基础代理的基准。它包含了五个不同的环境,涵盖了三种代表性的视觉代理任务类型:Embodied(具身)、GUI(图形用户界面)和Visual Design(视觉设计)。VAB的目标是通过在轨迹上训练开放的LLM/LMM,来推动视觉基础代理的能力发展。
2. 项目快速启动
以下是快速启动VisualAgentBench的步骤:
首先,克隆项目仓库并安装依赖:
cd VisualAgentBench
conda create -n vab python=3.9
conda activate vab
pip install -r requirements.txt
确保Docker已经正确安装:
docker ps
然后,配置代理:
在configs/agents/openai-chat.yaml中填写你的OpenAI API Key。
你可以使用以下命令检查代理是否配置正确:
python -m src.client.agent_test
接着,启动任务服务器:
python -m src.start_task -a
此命令将启动四个VAB-Minecraft任务的工作进程,并自动将它们连接到端口5000上的控制器。执行此命令后,请等待大约1分钟,以便任务设置完成。
如果终端显示".... 200 OK",你可以在另一个终端中启动分配器:
python -m src.assigner --auto-retry
这样就可以开始执行任务了。
3. 应用案例和最佳实践
为了更好地使用VisualAgentBench,以下是一些应用案例和最佳实践:
- 案例一:使用VAB-Minecraft环境进行Embodied任务的研究。可以通过调整
configs/assignments/omnigibson.yaml配置文件来启动不同数量的任务。 - 案例二:在VAB-WebArena-Lite环境中进行GUI任务的测试。请确保仔细阅读其单独的设置说明,因为它基于WebArena和VisualWebArena进行了修改。
4. 典型生态项目
VisualAgentBench依赖于以下几个典型的生态项目:
- AgentBench:作为本项目的基础框架,用于高效可靠的并行代理评估。
- WebArena和VisualWebArena:为VAB-WebArena-Lite数据集提供测试框架和数据源。
- OmniGibson:作为VAB-OmniGibson的环境。
- JARVIS-1:VAB-Minecraft的框架改编自JARVIS-1的管道。
- STEVE-1:作为VAB-Minecraft的动作执行器。
通过以上指南,你可以开始使用VisualAgentBench,并探索大型多模态模型在视觉代理任务中的潜力。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



