Diffusion Forcing: 开源项目使用与启动教程

最新推荐文章于 2025-05-31 08:00:00 发布

邴联微

最新推荐文章于 2025-05-31 08:00:00 发布

阅读量429

点赞数 9

本文链接：https://blog.youkuaiyun.com/gitblog_00076/article/details/146936249

版权

Diffusion Forcing: 开源项目使用与启动教程

diffusion-forcing code for "Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion" 项目地址: https://gitcode.com/gh_mirrors/di/diffusion-forcing

1. 项目介绍

本项目是基于论文《Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion》的代码实现。该论文提出了一种新的生成模型，将下一次标记预测与全序列扩散模型相结合，应用于视频生成、迷宫规划等场景。项目包含了最新的时序注意力机制实现，同时也提供了原始论文中使用的循环神经网络（RNN）版本的代码。

2. 项目快速启动

环境搭建

首先，创建一个Python虚拟环境并激活：

conda create python=3.10 -n diffusion-forcing
conda activate diffusion-forcing

接着，安装项目依赖：

pip install -r requirements.txt

使用预训练模型

为了快速体验模型效果，可以使用提供的预训练模型。首先，从项目提供的地址下载迷你数据集和预训练模型，然后解压：

tar -xzvf quickstart_atten.tar.gz

文件解压后，应当看到data文件夹和outputs/xxx.ckpt文件出现在项目根目录下。

视频预测

使用以下命令生成Minecraft视频：

python -m main +name=sample_minecraft_pretrained load=outputs/minecraft.ckpt experiment.tasks=[validation]

如果要生成的视频长度是训练长度的8倍，可以添加参数：

dataset.validation_multiplier=8

迷宫规划

对于迷宫规划任务，可以使用以下命令：

python -m main experiment=exp_planning algorithm=df_planning dataset=maze2d_medium dataset.action_mean=[] dataset.action_std=[] dataset.observation_mean=[3.5092521,3.4765592] dataset.observation_std=[1.3371079,1.52102] load=outputs/maze2d_medium_x.ckpt experiment.tasks=[validation] algorithm.guidance_scale=3 +name=maze2d_medium_x_sampling

类似地，对于大型迷宫，命令如下：

python -m main experiment=exp_planning algorithm=df_planning dataset=maze2d_large dataset.observation_mean=[3.7296331,5.3047247] dataset.observation_std=[1.8070312,2.5687592] dataset.action_mean=[] dataset.action_std=[] load=outputs/maze2d_large_x.ckpt experiment.tasks=[validation] algorithm.guidance_scale=2 +name=maze2d_large_x_sampling