【文章摘要-20231019】Any-to-Any Generation via Composable Diffusion

论文链接
代码链接

作者提出了一个可组合的扩散模型,该模型体现为能够处理任何输入模态的组合,进而输出任何模态组合的新型生成模型,如语言、图像、视频或音频。不同于已经存在的生成式人工智能系统,该算法能够并行生成多个模态并且他的输出不仅限于图像或文本这种子集。尽管对于许多模态的组合训练集是缺乏的,作者提出同时在输出和输入空间对齐多个模态。这使得该算法能够自由调节任何输入模态的结合并生成任何模态的组合,即使在数据训练数据中没有体现。该算法采用一个新颖的可组合式的生成策略,其中包含在扩散过程中通过桥接对齐建立一个共享的多模态空间,进而同步生成相互交织的模态,如暂时性对齐的视频和音频。

同一空间特征对齐、任意模态生成任意模态

方法

3.1 Preliminary: Latent Diffusion Model

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值