
AIGC
文章平均质量分 83
yang_daxia
这个作者很懒,什么都没留下…
展开
-
论文阅读VACE: All-in-One Video Creation and Editing
主要是统一了多个不同的视频任务,使得单一模型拥有复杂的能力。创新点注意围绕着接口设计、训练设计。模型核心结构未变。原创 2025-04-17 16:28:44 · 763 阅读 · 0 评论 -
videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读
文章在两个主要任务上验证了Video LDM的性能:高分辨率真实驾驶场景视频合成和基于文本的视频合成(text-to-video)。在已有的2d的生成模型基础上,插入conv3D和时间维度注意力机制。利用已有的图片生成模型的权重。原创 2025-04-02 14:26:56 · 903 阅读 · 0 评论 -
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
由于重新定义的掩码通常比原始掩码大,这可能会限制生成的角色必须小于给定的掩码。具体方法是提取角色和交互对象,并根据其掩码进行随机缩放操作,然后将缩放后的内容重新组合回源视频。其中,F表示Conv2D-Sigmoid层,z_blend表示空间混合后的新的噪声潜在变量。:对于噪声潜在变量 和对象潜在变量将它们的特征连接起来,并通过一个Conv2D-Sigmoid层计算alpha权重。:在训练过程中,随机高斯噪声 被逐步添加到不同时间步的图像潜在变量 z_t 中。给参考图和视频,替换视频中的人物。原创 2025-03-27 16:39:31 · 866 阅读 · 0 评论 -
diffusion基础汇总
大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective 阅读笔记 - 中森的文章 - 知乎。DDIM:从数学原理的另一个角度,重新推到,摒弃了马尔可夫过程,使得t步不依赖t-1步,加快了采样。加噪的过程理解为把所有图片压缩为一个高斯分布。所以随机采样一个噪声进行去噪就可以还原为某一个图片。DDPM:一个马尔可夫链,逐渐加噪去噪。通过随机微分方程的角度去理解扩散模型。类似雕塑家从一个石头雕刻出一个雕像。苏神:生成扩散模型漫谈系列。原创 2025-03-13 09:52:58 · 200 阅读 · 0 评论 -
论文阅读Vlogger: Make Your Dream A Vlog
论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。原创 2024-06-27 11:34:38 · 1044 阅读 · 1 评论 -
大模型SFT
supervised fine-tuning的缩写,即有监督的微调。如应用到一个新的场景,就可以使用SFT。原创 2024-06-06 22:12:56 · 632 阅读 · 0 评论 -
Stable Diffusion原理
目前常采用的定量指标是FID(Fréchet inception distance)和CLIP score,其中FID可以衡量生成图像的逼真度(image fidelity),而CLIP score评测的是生成的图像与输入文本的一致性,其中FID越低越好,而CLIP score是越大越好。训练条件扩散模型时,往往会采用Classifier-Free Guidance(这里简称为CFG),同时训练一个无条件的扩散模型(以一定的比例是text为‘’),然后将两者加权,可以改善最终的生成质量。原创 2024-06-05 22:47:44 · 1309 阅读 · 0 评论 -
how-diffusion-models-work课程学习
扩散模型可以用于图像生成、图像编辑、音乐生成等领域。后续学习更好的sampling、stable diffusion参考:https://learn.deeplearning.ai/courses/diffusion-models/p=1。原创 2024-05-17 15:11:33 · 390 阅读 · 0 评论