Thinking-in-Space 开源项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00618/article/details/147038228

Thinking-in-Space 开源项目教程

thinking-in-space Official repo and evaluation implementation of VSI-Bench 项目地址: https://gitcode.com/gh_mirrors/th/thinking-in-space

1. 项目介绍

"Thinking-in-Space" 是一个旨在评估多模态大型语言模型（MLLMs）视觉-空间智能的基准测试项目。该项目通过观察视频数据、构建视觉问答（VQA）基准来检查模型的空间记忆，以及探讨MLLMs在实际空间智能方面的优势和局限性。该基准测试包括超过5000个问题-答案对，来源于288个第一人称视频，这些视频是从公共室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes的验证集中提取的。

2. 项目快速启动

在开始之前，请确保您的环境中已安装了Python 3.10。以下是快速启动项目的步骤：

# 创建一个名为vsibench的虚拟环境
conda create --name vsibench python=3.10

# 激活虚拟环境
conda activate vsibench

# 克隆项目仓库
git clone git@github.com:vision-x-nyu/thinking-in-space.git

# 进入项目目录
cd thinking-in-space

# 更新子模块
git submodule update --init --recursive

# 安装transformers模块
cd transformers
pip install -e .
cd ..

# 安装其他依赖
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

# 运行评估脚本
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

请注意，运行评估脚本可能需要一些时间，具体取决于您的硬件配置。