从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。
为此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架,系统性解决可控长视频生成中的核心难题。

-
项目主页:https://vchitect.github.io/LongVie-project/
-
视频:https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s
-
论文:https://arxiv.org/abs/2508.03694
-
Github:https://github.com/Vchitect/LongVie
难点剖析
直接利用当前的可控视频生成模型生成分钟级长视频时,通常会出现以下问题:
-
时序不一致:前后画面细节与内容不连贯,出现闪烁等现象。
-
视觉退化:随时长增长,出现颜色漂移、清晰度下降等问题。
LongVie框架解决超长视频生成难题

最低0.47元/天 解锁文章
3316

被折叠的 条评论
为什么被折叠?



