多模态图像，超长视频生成SOTA，Sora没做到的，LongVie框架给解决了

LongVie框架解决超长视频生成难题

最新推荐文章于 2025-11-30 17:53:43 发布

原创

最新推荐文章于 2025-11-30 17:53:43 发布 · 894 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #超级智能 #开源 #人工智能 #开发语言 #大数据 #架构

从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

项目主页：https://vchitect.github.io/LongVie-project/
视频：https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s
论文：https://arxiv.org/abs/2508.03694
Github：https://github.com/Vchitect/LongVie

难点剖析

直接利用当前的可控视频生成模型生成分钟级长视频时，通常会出现以下问题：

时序不一致：前后画面细节与内容不连贯，出现闪烁等现象。
视觉退化：随时长增长，出现颜色漂移、清晰度下降等问题。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

计算机科研圈

关注关注

25
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Sora与OpenAI o1的AIGC技术解析：SOTA模型的创新与实践（附代码与详细教程）

一键难忘的博客

11-21

3316

Sora与OpenAI o1在AIGC领域展现了强大的生成能力，特别是在自然语言生成、图像生成等方面取得了显著的成果。两者分别基于不同的深度学习架构，以更高效的方式实现了AIGC的自动生成、细节优化和上下文理解。在这篇文章中，我们深入分析了AIGC领域的领先模型Sora和OpenAI o1的技术原理及性能表现。Sora通过其自适应Attention和多模态学习机制，在多模态任务中展现了卓越的生成能力，适用于图文结合的复杂生成需求；

Diffusion Models视频生成-博客汇总

沉迷单车的追风少年

10-28

5313

Diffusion Models视频生成-博客汇总

参与评论您还未登录，请先登录后发表或查看评论

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA

jike007gt的博客

08-21

836

上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。从 Sora 的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

【多模态LLM】(task1)Sora相关技术路径

发现问题，并解决问题，批判性思维

02-29

1301

一、Sora是什么? Sora是text-to-video模型 (可能是世界模型)，OpenAl的研究人员选择这个名字,因为它“唤起了无限创造力潜能”，特点是: 创建最多60秒的视频,高度详细的场景,复杂的多相机视角以及富有情感的多角色。Sora官网链接:https://openai.com/sora 优点：连续多帧的视频。视频融合。同一场景的多角度/多镜头的生成能力。人和其他场景元素在三维空间中一致移动。支持任意分辨率，宽高比的视频输出。缺点：对物理规律的理解仍然有限。 Sora能力总

AI化身全能配音师：腾讯AudioGenie发布，让视频、图像一键生成多样化音频

欢迎来到运通链达的官方博客！我们深度探讨人工智能技术与应用，贯彻科技向善理念，推动科技进步与社会福祉和谐共生。

08-19

1713

【摘要】腾讯发布的AudioGenie系统，以其创新的“无训练双层多智能体”架构，为多模态到多音频（MM2MA）生成领域带来了范式级革命。本文将深度剖析AudioGenie的核心技术原理，从其精巧的任务分解、自适应混合专家协作，到严谨的监督反馈机制，揭示其如何绕开传统模型对海量配对数据的依赖。

火山引擎 veFuser：面向扩散模型的图像与视频生成推理服务框架

volcenginetod的博客

06-11

948

近年来，扩散模型（Diffusion Models）在生成式人工智能领域取得了突破性进展，尤其是在图像和视频生成方面表现卓越。基于 Transformer 的扩散模型（DiT, Diffusion Transformer）因其强大的建模能力和高质量输出，成为学术界和工业界的研究热点。

Seedance：字节发布视频生成基础模型新SOTA，能力全面提升

sherlockMa的博客

06-12

2341

Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型，旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成，实现了跨多样化场景的全面学习；采用高效的架构设计，支持多镜头生成以及文本到视频和图像到视频任务的联合学习；通过细粒度监督微调和多维度奖励机制的强化学习，显著提升了模型性能；并借助多阶段蒸馏策略和系统级优化，实现了 10 倍的推理加速。

阿里开源Wan 2.1视频大模型：多模态生成能力突破，性能超越Sora

gitblog_00112的博客

10-26

293

2025年2月26日深夜，阿里巴巴宣布开源旗下最新视频生成大模型——Wan 2.1（通义万相2.1），采用Apache 2.0开源协议。全球开发者现已可通过GitCode（https://gitcode.com/hf_mirrors/Wan-AI/Wan2.1-I2V-14B-480P）及HuggingFace平台获取完整代码与模型权重，直接体验文本到视频（T2V）和图像到视频（I2V）的全场景生...

（Arxiv-2025）KALEIDO：开源的多主体参考视频生成模型

顾道长生的科研笔记

11-10

1170

摘要：本文提出KALEIDO，一种开源的多主体参考视频生成模型，通过优化数据构建和条件注入策略解决现有S2V模型在多主体一致性和背景解耦方面的不足。KALEIDO采用严格筛选与交叉配对的数据管线增强多样性，并引入参考旋转位置编码（R-RoPE）实现高效多图像融合。实验表明，KALEIDO在主体保真度、背景解耦和生成质量上显著优于现有方法。代码和模型已开源，推动S2V领域研究进展。

文本生成图像新SOTA！RealCompo：逼真和构图的动态平衡（清北最新）

AIGCer的博客

02-27

782

最近，扩散模型取得了令人振奋的发展和显著进步。在各种生成任务中，文本到图像（T2I）生成在社区内引起了相当大的兴趣。由于在大规模图像-文本配对数据集上进行了广泛的训练，T2I模型（例如，Stable Diffusion）展现出强大的语义理解能力，使它们能够基于语义信息生成高度逼真的对象。然而，当输入文本涉及多个对象或复杂关系时，T2I模型生成的图像有时不会与文本提示指定的对象的组合性对齐。下图2展示了来自不同方面的Stable Diffusion的评估结果，未能生成正确数量的对象，缺乏良好的组合性。

【民族服饰识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法

最新发布

子午的博客

11-30

487

民族服饰识别，民族服饰智能识别与分析系统基于TensorFlow框架，采用卷积神经网络（CNN）算法构建而成。系统在收集了回族、汉族、满族、苗族四类典型民族服饰图像数据集的基础上，通过多轮迭代训练，最终生成高精度识别模型，并配合Web可视化平台实现便捷交互。前端后端：Django算法：TensorFlow、卷积神经网络算法具体功能系统分为管理员和用户两个角色，登录后根据角色显示其可访问的页面模块。登录系统后可发布、查看、编辑文章，创建文章功能中集成了markdown编辑器，可对文章进行编辑。

深度学习实战（基于pytroch）系列（四十一）长短期记忆（LSTM）pytorch简洁实现

echo的博客

11-29

1018

本文介绍了使用PyTorch简洁实现长短期记忆网络(LSTM)语言模型的方法。首先读取周杰伦歌词数据集并进行预处理，然后定义包含LSTM层和全连接层的RNN模型类，其中LSTM需要同时处理隐藏状态和细胞状态。文章详细展示了模型初始化、预测函数实现以及训练过程，包括梯度裁剪和数据迭代器设计。通过对比手动实现，突出了PyTorch框架在简化LSTM实现方面的优势，为自然语言处理任务提供了高效的解决方案。

深度学习实战（基于pytroch）系列（四十）长短期记忆（LSTM）从零开始实现

echo的博客

11-28

1442

LSTM（长短期记忆网络）是一种改进的循环神经网络，通过引入输入门、遗忘门和输出门三个控制单元，以及记忆细胞结构，有效解决了传统RNN的梯度消失问题。其核心计算包括：三个门控单元通过sigmoid函数调节信息流动，候选记忆细胞使用tanh函数生成，最终记忆细胞由遗忘门和输入门共同决定。实验使用周杰伦歌词数据集进行训练，从零实现了LSTM模型的参数初始化和前向传播过程，包括状态初始化、门控计算和隐藏状态更新。该结构能更好地捕捉长距离依赖关系，适用于序列建模任务。

深度学习实战（基于pytroch）系列（四十四）优化与深度学习

echo的博客

11-30

995

本文探讨了优化与深度学习的关系及优化在深度学习中的挑战。优化算法通过最小化训练误差来降低损失函数值，而深度学习更关注降低泛化误差。文中重点分析了深度学习中常见的两个优化挑战：局部最小值和鞍点。通过数学函数示例和可视化图表，展示了这些特征点的特性，并指出在高维参数空间中，鞍点比局部最小值更为常见。最后强调虽然全局最优解难以获得，但现有优化算法已能有效训练深度学习模型。

Bayes-CNN-LSTM、Bayes-CNN-BiLSTM、Bayes-CNN-GRU、B...

2503_94130034的博客

11-24

433

无需手动调参，运行即出结果，特别适合刚接触时序预测的新手。Bayes-CNN-LSTM、Bayes-CNN-BiLSTM、Bayes-CNN-GRU、Bayes-CNN-BiGRU回归(四选一)(可以更换为分类/单、多变量时序预测，前)，Matlab代码，可直接运行，适合小白新手。Bayes也可以优化CNN-LSTM-Attention,CNN-BiLSTM-Attention，CNN-GRU-Attention,CNN-BiGRU-Attention模型回归，分类，时序预测()[电力负荷预测结果对比图]

Python连接云端Linux服务器进行远程（后端开发/深度学习）时候的注意事项

少年何妨梦摘星，敢挽桑弓射玉衡。他时若遂凌云志，敢笑黄巢不丈夫。

11-29

803

深度学习助力图像增强：多算法与PyTorch复现

2508_94252591的博客

11-29

685

深度学习图像低光照增强算法低照度增强3DLUT,DeepUPT,DeepLPF,RetinexNet,Zero-DCE,EnlightenGAN,RetinexFormer等图像调色增强算法HDRNet,StarEnhancer,CSRNet等水下增强算法UWGAN,UIEGAN等pytorch架构复现，有代码和benchmark数据集在图像处理领域，针对不同场景和需求，有着各种各样的深度学习算法。

【机器学习】21-22 机器学习系统开发流程 & 倾斜数据集

weixin_54010404的博客

11-30

457

本文摘要：文章介绍了机器学习开发流程的关键环节，包括迭代开发过程、错误分析方法、数据增强与合成技术、迁移学习的应用场景与策略。详细阐述了倾斜数据集下的评估指标（准确率、召回率、F1分数）及其权衡关系，并概述了完整机器学习项目的生命周期（从任务定义到部署监控）。特别强调了在数据不平衡情况下传统准确率的局限性，提出了使用精确率和召回率作为替代指标，并通过F1分数进行综合评估的方法。最后提及了机器学习项目中的伦理考量和数据偏见问题。

【卫星图像识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法

子午的博客

11-30

510

卫星影像识别系统，基于TensorFlow搭建卷积神经网络算法，通过对7种常见的卫星遥感影像图片数据集（‘草地（Grass）’, ‘农田（Field）’, ‘工业区（Industry）’, ‘河流湖泊（RiverLake）’, ‘森林（Forest）’, ‘居民区（Resident）’, ‘停车场（Parking）’）进行训练，最后得到一个识别精度较高的模型，然后搭建Web可视化操作平台。前端后端：Django算法：TensorFlow、卷积神经网络算法具体功能。

帮我整理LLM及LLM延申出来的大模型应用（例如视频大模型等）的关键论文，要2017年以后的，能够帮我理解现在市面上的架构和技术原理

11-20

以下是2017年后LLM及大模型应用领域的关键论文清单，涵盖基础架构突破、多模态扩展及视频大模型核心技术，按技术演进脉络分类整理： --- ### **一、基础架构里程碑** 1. **《Attention is All You Need》** ...