im2wav：图像引导的音频生成新篇章-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01191/article/details/146933412

im2wav：图像引导的音频生成新篇章

im2wav Official implementation of the pipeline presented in I hear your true colors: Image Guided Audio Generation 项目地址: https://gitcode.com/gh_mirrors/im/im2wav

项目介绍

im2wav 是一个基于图像引导的开域音频生成系统。该项目提出了一种新的方法，可以根据输入的图像或图像序列生成在语义上相关的声音。这一突破性的技术为图像与音频的融合开辟了新的道路，有望在多种应用场景中发挥重要作用。

项目技术分析

im2wav 的核心技术基于两个Transformer语言模型，这些模型在一个由VQ-VAE模型获得的分层离散音频表示上运行。首先，使用一个语言模型生成低级音频表示；然后，通过另一个语言模型上采样音频标记，生成高保真度音频样本。项目中使用了预训练的CLIP嵌入作为视觉表示，来调节语言模型，确保生成的音频与输入图像在语义上保持一致。此外，为了更好地引导生成过程，项目还应用了无分类器指导方法。

项目的技术亮点包括：

图像与音频的深度结合：通过CLIP嵌入，将图像的视觉信息与音频的生成过程紧密结合。
分层音频表示：使用VQ-VAE模型，将音频表示分层，有效提高了生成音频的质量。
无分类器指导方法：通过该方法，生成过程更加倾向于与输入图像保持一致。

项目及技术应用场景

im2wav 的应用场景广泛，包括但不限于：

多媒体创作：为视频、游戏等提供实时音频生成，增强用户体验。
虚拟现实：在虚拟环境中，根据用户视觉输入实时生成相应的背景音效。
智能辅助：为视障人士提供基于图像内容的音频描述，帮助他们更好地理解视觉信息。

项目特点

创新性：im2wav 提出了一种新的图像引导音频生成方法，为图像与音频的融合提供了新的解决方案。
高性能：结果显示，im2wav 在保真度和相关性评估指标上均显著优于已有基准。
灵活性：项目支持自定义数据集，用户可以根据自己的需求进行模型训练和音频生成。

以下是对 im2wav 项目更详细的介绍：

安装

安装 im2wav 非常简单。首先，使用 Git 克隆仓库：

git clone git@github.com:RoySheffer/im2wav.git
cd im2wav
pip install -r requirements.txt

注意，PyTorch 的安装可能依赖于您的 CUDA 版本，具体安装方法请参考PyTorch 官方文档。

使用

项目提供了一个玩具示例，包括两个视频和两张单独的图像。同样的脚本可以用于完整版的 VGGSound 或其他自定义数据集。

首先，设置所有脚本应该运行的目录：

mkdir run && cd run

接下来，收集图像的CLIP表示：

python ../Data/preprocess/collect_video_CLIP.py \
-videos_dir ../Data/examples/video

python ../Data/preprocess/collect_image_CLIP.py \
-path_list ../Data/ImageHear/bongo1.jpg  ../Data/ImageHear/dog1.jpg

训练

训练模型时，需要设置一个与您的 GPU 容量相匹配的批量大小（bs）。

python ../models/train.py \
--hps=small_multi_level_vqvae \
--name=im2wav_vq \
--sample_length=65536 \
--bs=2 \
--audio_files_dir=../Data/examples/wav \
--labels=False \
--train \
--aug_shift \
--aug_blend \

采样

模型收敛后，我们可以使用训练好的模型进行音频生成。

python ../models/sample.py \
-bs 2 \
-experiment_name video_CLIP \
-CLIP_dir video_CLIP \
-models my_model

python ../models/sample.py \
-bs 2 \
-wav_per_object 2 \
-experiment_name image_CLIP \
-CLIP_dict image_CLIP/CLIP.pickle \
-models my_model

使用预训练模型

如果需要使用预训练模型，您可以按照以下步骤下载模型权重：

mkdir ../pre_trained

pip install gdown

gdown 1lCrGsMXqmeKBk-3B3J2jzxNur9olWseb -O ../pre_trained/
gdown 1v9dmCwrEwkwJhbe2YF3ScM2gjVplSLzt -O ../pre_trained/
gdown 1UyNBjoxgqBYqA_aYhOu6BHYlkT4CD_M_ -O ../pre_trained/

然后，重复视频/图像条件采样步骤，将 my_model 替换为 im2wav。

引用

如果您觉得这个实现有用，可以考虑引用以下论文：

@misc{sheffer2022i,
    title={I Hear Your True Colors: Image Guided Audio Generation},
    author={Roy Sheffer and Yossi Adi},
    year={2022},
    eprint={2211.03089},
    archivePrefix={arXiv},
    primaryClass={cs.SD}
}