
diffusion
文章平均质量分 85
yang_daxia
这个作者很懒,什么都没留下…
展开
-
论文阅读VACE: All-in-One Video Creation and Editing
主要是统一了多个不同的视频任务,使得单一模型拥有复杂的能力。创新点注意围绕着接口设计、训练设计。模型核心结构未变。原创 2025-04-17 16:28:44 · 763 阅读 · 0 评论 -
sora技术报告Video generation models as world simulators
transformer可以很好的scale,随着scale的增加,生成的效果越来越好。使用视频的原始分辨率进行训练,有助于好看的构图生成。使用GPT将用户的短prompt扩充为复杂的长prompt,提升生成效果。在文字prompt的基础上,还可以增加图片、视频的参考。sora结合Sdedit,可以对视频进行编辑,比如风格转换,环境转换。时空的隐patches,即视频压缩后的结果。图片可以看出单帧的视频。sora参考了DALL*3对视频生成文本描述的方式。- 连接两个视频,对两个视频的内容做插值。原创 2025-04-02 10:34:35 · 535 阅读 · 0 评论 -
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
由于重新定义的掩码通常比原始掩码大,这可能会限制生成的角色必须小于给定的掩码。具体方法是提取角色和交互对象,并根据其掩码进行随机缩放操作,然后将缩放后的内容重新组合回源视频。其中,F表示Conv2D-Sigmoid层,z_blend表示空间混合后的新的噪声潜在变量。:对于噪声潜在变量 和对象潜在变量将它们的特征连接起来,并通过一个Conv2D-Sigmoid层计算alpha权重。:在训练过程中,随机高斯噪声 被逐步添加到不同时间步的图像潜在变量 z_t 中。给参考图和视频,替换视频中的人物。原创 2025-03-27 16:39:31 · 866 阅读 · 0 评论 -
LDM——High-Resolution Image Synthesis with Latent Diffusion Models论文阅读
高分辨率复杂图像的合成主要基于AR以及GAN,GAN的效果更好一些,但是对抗学习优化难,难以scale,导致无法扩展更大的模型复杂度,建模的复杂度有限。:计算复杂度高,生成过程是顺序的,限制了其在高分辨率图像上的应用(单步逐像素生成,下一个像素依赖上一个像素,无法并行)。分离训练阶段(先训练自编码器,再训练扩散模型),确保了在潜在空间中进行很好的重建,不需要对潜在空间进行过多的正则化。训练一个自编码器(autoencoder),将高维的像素空间映射到一个低维的潜在空间,同时保留了图像的感知信息。原创 2025-03-12 15:14:27 · 983 阅读 · 0 评论