- 博客(18)
- 问答 (1)
- 收藏
- 关注
原创 Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记
text与pose条件生成视频
2023-11-21 16:03:10
4146
2
原创 LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation学习笔记
这使得文本到图像扩散模型学习具有8 ~ 16个视频的特定运动模式
2023-11-07 16:27:26
354
原创 VIDEODIRECTORGPT: CONSISTENT MULTI-SCENEVIDEO GENERATION VIA LLM-GUIDED PLANNING学习笔记
两阶段视频生成框架,视频内容规划(使用LLM),grounding(落地)的多场景视频生成(Lay2Vid)Lay2Vid:将基于图像/文本的layout control ability(布局控制能力)和entity-level temporal consistency(实体级时间一致性)结合在一起。
2023-10-24 10:45:56
308
原创 MOTIONDIRECTOR: MOTION CUSTOMIZATION OFTEXT-TO-VIDEO DIFFUSION MODELS学习笔记
将特定的motion(运动)推广到各种appearance(外观)提出了具有双路径架构的MotionDirector和一种新的appearance debiased temporal training objective(外观去偏时间训练目标),将外观和运动的学习解耦
2023-10-17 15:52:24
461
原创 Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记
free bloom:一种新的zero-shot text-to-video pipeline 利用了llm rich world knowledge和ldm生成能力
2023-10-10 15:04:33
369
1
原创 REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记
Reuse and Diffuse(重用和扩散),根据LDM已经生成的帧生成更多的帧(以具有少量帧的初始视频片段为条件,通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。)
2023-09-19 17:27:31
122
原创 EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记
利用llm进行行动规划和场景想象
2023-09-12 15:01:31
223
1
原创 DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis学习笔记
latent域迭代去闪烁框架,视频去闪烁算法
2023-09-05 09:58:48
402
原创 SimDA: Simple Diffusion Adapter for Efficient Video Generation学习笔记
现有的T2V模型要么从头开始训练,或将大型T2I模型适应视频,需要大量计算资源和数据设计轻量级spatial and temporal adapters(空间和时间适配器)进行迁移学习;将原始spatial attention(空间注意力)更改为所提出的 Latent-Shift Attention (LSA),以实现时间一致性。
2023-08-30 18:16:24
499
1
原创 Implicit Diffusion Models for Continuous Super-Resolution学习笔记
集成了Implicit Neural Representation(隐式神经表示)和去噪扩散模型
2023-08-15 13:10:41
967
1
原创 Solving Linear Inverse Problems Provably via Posterior Sampling with Latent Diffusion Models学习笔记
利用预训练latent diffusion解决线性逆问题
2023-07-17 22:29:08
325
1
原创 VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记
将atlas-based(基于图谱)和预训练的文本到图像扩散模型相结合,提供了一种无需训练且高效的编辑方法
2023-07-11 10:01:01
243
原创 Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation学习笔记
a parameter-free temporal shift module(无参数的时间偏移模块)
2023-07-04 16:27:13
326
原创 FateZero: Fusing Attentions for Zero-shot Text-based Video Editing学习笔记
使用预训练的t2i模型实现zero-shot 、text-based 视频编辑
2023-06-17 20:59:46
595
1
原创 ControlVideo学习笔记
视频编辑任务:编辑后的视频应忠实地保留源视频的内容,保持生成帧之间的时间一致性,并与目标提示保持一致。现有的方法仍然难以忠实和充分地控制输出,同时保持时间一致性ControlVideo将Canny边缘图、HED边界和所有帧的深度图等视觉条件作为附加输入,从而放大源视频的指导。微调diffusion model和ControlNet中的attention模块,增强忠实度和时间一致性。(self-attention转换为key-frame attention,将所有帧与选定帧对齐。
2023-06-17 15:07:58
714
1
空空如也
我想在yolov5中加入sam模块,请问该怎么操作
2021-11-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人