视频生成技术的突破:从Style Gen V到Long Videos
近年来,文本到图像的合成技术取得了重大进展,而视频生成领域也迎来了新的突破。以往的视频生成模型,如Style Gen V,虽然能够生成较长的视频,但存在着帧与帧之间缺乏连贯性,以及生成内容重复等问题。
Style Gen V通过引入图像剪辑编辑功能,可以生成更丰富的视频内容。然而,其最大的局限性在于其对短时内容的一致性依赖,导致无法生成新内容,最终限制了视频的真实感。
2022年6月,一项名为“Long Videos”的研究成果出现,成功克服了Style Gen V的瓶颈。该研究能够准确地再现物体运动、相机视角变化以及随着时间推移而出现的新的内容,并在帧与帧之间保持高度的连贯性。
在实际演示中,Long Videos能够清晰地分离出马匹和地面的运动,而Style Gen V则难以做到这一点,并且仍然存在纹理粘贴问题。Long Videos能够生成无限的视频内容,例如骑行者穿越山地地形,展现出惊人的视觉效果。
相比于一年前的Style Gen V,Long Videos在帧与帧之间的连贯性和生成新内容方面取得了巨大进步,展现了研究人员对该领域的热情和持续探索。
此外,随着多模态学习的兴起,如Dolly 2等模型,文本到图像的合成技术也得到了进一步发展。未来,视频生成技术将继续融合多模态学习,并朝着更逼真、更具创造性的方向发展。
文本转图像,文本转视频,很快我们将被更多有趣的 AI 研究淹没!所以这里有一个视频来纪念我们开发文本转视频生成的疯狂旅程的开始...
7683

被折叠的 条评论
为什么被折叠?



