OpenEMMA 使用教程

最新推荐文章于 2025-06-08 23:16:36 发布

刘童为Edmond

最新推荐文章于 2025-06-08 23:16:36 发布

阅读量1k

点赞数 24

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00954/article/details/146994714

OpenEMMA 使用教程

OpenEMMA OpenEMMA, a permissively licensed open source "reproduction" of Waymo’s EMMA model. 项目地址: https://gitcode.com/gh_mirrors/op/OpenEMMA

1. 项目介绍

OpenEMMA 是一个开源的端到端自动驾驶多模态模型，基于 Waymo 的 EMMA 模型。该项目利用预训练的视觉语言模型（VLMs），如 GPT-4 和 LLaVA，整合文本和前视摄像头输入，实现精确的未来轨迹预测和决策推理。OpenEMMA 的目标是提供易于使用的工具，以便研究者和开发者推动自动驾驶研究和应用的发展。

2. 项目快速启动

环境设置

首先，为 OpenEMMA 创建一个 Conda 环境，使用 Python 3.8：

conda create -n openemma python=3.8
conda activate openemma

安装 OpenEMMA

你可以使用 PyPI 单命令安装 OpenEMMA：

pip install openemma

或者，按照以下步骤操作：

克隆 OpenEMMA 仓库并导航到根目录：

git clone git@github.com:taco-group/OpenEMMA.git
cd OpenEMMA

安装依赖项

确保你安装了 cudatoolkit。如果没有，使用以下命令：

conda install nvidia/label/cuda-12.4.0::cuda-toolkit

然后，运行以下命令安装核心依赖：

pip install -r requirements.txt

这会安装所有依赖项，包括 YOLO-3D 的依赖。YOLO-3D 的权重会在第一次执行时自动下载。

设置 GPT-4 API 访问

为了启用 GPT-4 的推理能力，从 OpenAI 获取一个 API 密钥。你可以在代码中直接添加你的 API 密钥，或者将其设置为环境变量：

export OPENAI_API_KEY="your_openai_api_key"

使用 OpenEMMA

环境设置完成后，按照以下说明使用 OpenEMMA：

准备输入数据

下载并解压 nuScenes 数据集。

运行 OpenEMMA

使用以下命令执行 OpenEMMA 的主脚本：

# PyPI
openemma \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

# GitHub 仓库
python main.py \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

目前，我们支持以下模型：