im2wav:图像引导的音频生成新篇章

im2wav:图像引导的音频生成新篇章

im2wav Official implementation of the pipeline presented in I hear your true colors: Image Guided Audio Generation im2wav 项目地址: https://gitcode.com/gh_mirrors/im/im2wav

项目介绍

im2wav 是一个基于图像引导的开域音频生成系统。该项目提出了一种新的方法,可以根据输入的图像或图像序列生成在语义上相关的声音。这一突破性的技术为图像与音频的融合开辟了新的道路,有望在多种应用场景中发挥重要作用。

项目技术分析

im2wav 的核心技术基于两个Transformer语言模型,这些模型在一个由VQ-VAE模型获得的分层离散音频表示上运行。首先,使用一个语言模型生成低级音频表示;然后,通过另一个语言模型上采样音频标记,生成高保真度音频样本。项目中使用了预训练的CLIP嵌入作为视觉表示,来调节语言模型,确保生成的音频与输入图像在语义上保持一致。此外,为了更好地引导生成过程,项目还应用了无分类器指导方法。

项目的技术亮点包括:

  • 图像与音频的深度结合:通过CLIP嵌入,将图像的视觉信息与音频的生成过程紧密结合。
  • 分层音频表示:使用VQ-VAE模型,将音频表示分层,有效提高了生成音频的质量。
  • 无分类器指导方法:通过该方法,生成过程更加倾向于与输入图像保持一致。

项目及技术应用场景

im2wav 的应用场景广泛,包括但不限于:

  • 多媒体创作:为视频、游戏等提供实时音频生成,增强用户体验。
  • 虚拟现实:在虚拟环境中,根据用户视觉输入实时生成相应的背景音效。
  • 智能辅助:为视障人士提供基于图像内容的音频描述,帮助他们更好地理解视觉信息。

项目特点

  1. 创新性:im2wav 提出了一种新的图像引导音频生成方法,为图像与音频的融合提供了新的解决方案。
  2. 高性能:结果显示,im2wav 在保真度和相关性评估指标上均显著优于已有基准。
  3. 灵活性:项目支持自定义数据集,用户可以根据自己的需求进行模型训练和音频生成。

以下是对 im2wav 项目更详细的介绍:

安装

安装 im2wav 非常简单。首先,使用 Git 克隆仓库:

git clone git@github.com:RoySheffer/im2wav.git
cd im2wav
pip install -r requirements.txt

注意,PyTorch 的安装可能依赖于您的 CUDA 版本,具体安装方法请参考PyTorch 官方文档

使用

项目提供了一个玩具示例,包括两个视频和两张单独的图像。同样的脚本可以用于完整版的 VGGSound 或其他自定义数据集。

首先,设置所有脚本应该运行的目录:

mkdir run && cd run

接下来,收集图像的CLIP表示:

python ../Data/preprocess/collect_video_CLIP.py \
-videos_dir ../Data/examples/video
python ../Data/preprocess/collect_image_CLIP.py \
-path_list ../Data/ImageHear/bongo1.jpg  ../Data/ImageHear/dog1.jpg

训练

训练模型时,需要设置一个与您的 GPU 容量相匹配的批量大小(bs)。

python ../models/train.py \
--hps=small_multi_level_vqvae \
--name=im2wav_vq \
--sample_length=65536 \
--bs=2 \
--audio_files_dir=../Data/examples/wav \
--labels=False \
--train \
--aug_shift \
--aug_blend \

采样

模型收敛后,我们可以使用训练好的模型进行音频生成。

python ../models/sample.py \
-bs 2 \
-experiment_name video_CLIP \
-CLIP_dir video_CLIP \
-models my_model
python ../models/sample.py \
-bs 2 \
-wav_per_object 2 \
-experiment_name image_CLIP \
-CLIP_dict image_CLIP/CLIP.pickle \
-models my_model

使用预训练模型

如果需要使用预训练模型,您可以按照以下步骤下载模型权重:

mkdir ../pre_trained
pip install gdown

gdown 1lCrGsMXqmeKBk-3B3J2jzxNur9olWseb -O ../pre_trained/
gdown 1v9dmCwrEwkwJhbe2YF3ScM2gjVplSLzt -O ../pre_trained/
gdown 1UyNBjoxgqBYqA_aYhOu6BHYlkT4CD_M_ -O ../pre_trained/

然后,重复视频/图像条件采样步骤,将 my_model 替换为 im2wav

引用

如果您觉得这个实现有用,可以考虑引用以下论文:

@misc{sheffer2022i,
    title={I Hear Your True Colors: Image Guided Audio Generation},
    author={Roy Sheffer and Yossi Adi},
    year={2022},
    eprint={2211.03089},
    archivePrefix={arXiv},
    primaryClass={cs.SD}
}

许可

该仓库根据 MIT 许可发布,具体内容请参考 LICENSE 文件。部分代码来自 JukeBox 仓库。

通过上述介绍,我们可以看出 im2wav 项目的创新性和实用价值,它为图像与音频的融合提供了一个强大的工具。无论是多媒体创作、虚拟现实还是智能辅助,im2wav 都有望在这些领域发挥重要作用。如果您对这些应用感兴趣,不妨尝试使用 im2wav,开启图像引导音频生成的新篇章。

im2wav Official implementation of the pipeline presented in I hear your true colors: Image Guided Audio Generation im2wav 项目地址: https://gitcode.com/gh_mirrors/im/im2wav

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韶丰业

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值