对于文生视频来说,有两个路径一种是,基于文生图,生成视频的,每个帧,然后再来生成视频
然后还有一种是,直接用模型生成视频,这种是视频模型.
代表就是sora.
他的原理就是:
AnimateDiff,首先用lora,把低质量的数据集中的数据特征进行学习,主要是把低质量的内容剔除掉,利用低质量的特征,然后再用
temporal transformer 进行学习,这个架构可以在,空间以及时间上进行学习,也就是,不光是对静态图片,对动态视频也可以良好的
学习内容,然后
在
然后这个是animateDiff的生成效果,当然是视频,只不过视频不好放,这里放图片了.
animateDiff文生视频,就是利用文生图片,生成视频的很多帧,然后再组合成一个视频.