im2wav:图像引导的音频生成新篇章
项目介绍
im2wav 是一个基于图像引导的开域音频生成系统。该项目提出了一种新的方法,可以根据输入的图像或图像序列生成在语义上相关的声音。这一突破性的技术为图像与音频的融合开辟了新的道路,有望在多种应用场景中发挥重要作用。
项目技术分析
im2wav 的核心技术基于两个Transformer语言模型,这些模型在一个由VQ-VAE模型获得的分层离散音频表示上运行。首先,使用一个语言模型生成低级音频表示;然后,通过另一个语言模型上采样音频标记,生成高保真度音频样本。项目中使用了预训练的CLIP嵌入作为视觉表示,来调节语言模型,确保生成的音频与输入图像在语义上保持一致。此外,为了更好地引导生成过程,项目还应用了无分类器指导方法。
项目的技术亮点包括:
- 图像与音频的深度结合:通过CLIP嵌入,将图像的视觉信息与音频的生成过程紧密结合。
- 分层音频表示:使用VQ-VAE模型,将音频表示分层,有效提高了生成音频的质量。
- 无分类器指导方法:通过该方法,生成过程更加倾向于与输入图像保持一致。
项目及技术应用场景
im2wav 的应用场景广泛,包括但不限于:
- 多媒体创作:为视频、游戏等提供实时音频生成,增强用户体验。
- 虚拟现实:在虚拟环境中,根据用户视觉输入实时生成相应的背景音效。
- 智能辅助:为视障人士提供基于图像内容的音频描述,帮助他们更好地理解视觉信息。
项目特点
- 创新性:im2wav 提出了一种新的图像引导音频生成方法,为图像与音频的融合提供了新的解决方案。
- 高性能:结果显示,im2wav 在保真度和相关性评估指标上均显著优于已有基准。
- 灵活性:项目支持自定义数据集,用户可以根据自己的需求进行模型训练和音频生成。
以下是对 im2wav 项目更详细的介绍:
安装
安装 im2wav 非常简单。首先,使用 Git 克隆仓库:
git clone git@github.com:RoySheffer/im2wav.git
cd im2wav
pip install -r requirements.txt
注意,PyTorch 的安装可能依赖于您的 CUDA 版本,具体安装方法请参考PyTorch 官方文档。
使用
项目提供了一个玩具示例,包括两个视频和两张单独的图像。同样的脚本可以用于完整版的 VGGSound 或其他自定义数据集。
首先,设置所有脚本应该运行的目录:
mkdir run && cd run
接下来,收集图像的CLIP表示:
python ../Data/preprocess/collect_video_CLIP.py \
-videos_dir ../Data/examples/video
python ../Data/preprocess/collect_image_CLIP.py \
-path_list ../Data/ImageHear/bongo1.jpg ../Data/ImageHear/dog1.jpg
训练
训练模型时,需要设置一个与您的 GPU 容量相匹配的批量大小(bs)。
python ../models/train.py \
--hps=small_multi_level_vqvae \
--name=im2wav_vq \
--sample_length=65536 \
--bs=2 \
--audio_files_dir=../Data/examples/wav \
--labels=False \
--train \
--aug_shift \
--aug_blend \
采样
模型收敛后,我们可以使用训练好的模型进行音频生成。
python ../models/sample.py \
-bs 2 \
-experiment_name video_CLIP \
-CLIP_dir video_CLIP \
-models my_model
python ../models/sample.py \
-bs 2 \
-wav_per_object 2 \
-experiment_name image_CLIP \
-CLIP_dict image_CLIP/CLIP.pickle \
-models my_model
使用预训练模型
如果需要使用预训练模型,您可以按照以下步骤下载模型权重:
mkdir ../pre_trained
pip install gdown
gdown 1lCrGsMXqmeKBk-3B3J2jzxNur9olWseb -O ../pre_trained/
gdown 1v9dmCwrEwkwJhbe2YF3ScM2gjVplSLzt -O ../pre_trained/
gdown 1UyNBjoxgqBYqA_aYhOu6BHYlkT4CD_M_ -O ../pre_trained/
然后,重复视频/图像条件采样步骤,将 my_model
替换为 im2wav
。
引用
如果您觉得这个实现有用,可以考虑引用以下论文:
@misc{sheffer2022i,
title={I Hear Your True Colors: Image Guided Audio Generation},
author={Roy Sheffer and Yossi Adi},
year={2022},
eprint={2211.03089},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
许可
该仓库根据 MIT 许可发布,具体内容请参考 LICENSE 文件。部分代码来自 JukeBox 仓库。
通过上述介绍,我们可以看出 im2wav 项目的创新性和实用价值,它为图像与音频的融合提供了一个强大的工具。无论是多媒体创作、虚拟现实还是智能辅助,im2wav 都有望在这些领域发挥重要作用。如果您对这些应用感兴趣,不妨尝试使用 im2wav,开启图像引导音频生成的新篇章。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考