
视频生成
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
单图秒变好莱坞级运镜!MagicMotion实现多物体丝滑运动,复杂场景帧级精准对齐(复旦&微软)
复杂对象运动和多对象运动控制的困难:现有方法在处理复杂对象运动和多对象运动控制时,存在轨迹遵循不精确、对象一致性差和视觉质量下降的问题。单一轨迹控制格式的限制:现有方法仅支持单一格式的轨迹控制,限制了其在不同场景中的适用性。缺乏专门的数据集和基准:目前没有公开的大规模数据集或基准专门用于轨迹可控视频生成,阻碍了鲁棒训练和系统评估。本文的工作主要集中在轨迹可控的视频生成上。给定输入图像 和多个轨迹图 ,模型可以生成符合提供轨迹的视频 ,其中 表示生成视频的长度。本节首先详细解释本文的模型架构。原创 2025-03-29 23:17:34 · 909 阅读 · 0 评论 -
让创意起飞!用户可控的电影级图像到视频生成方法!港中文&Adobe发布MotionCanvas
如何在图像到视频生成系统中实现直观的电影镜头设计。如何有效捕捉用户在运动设计上的意图,包括相机运动和场景空间对象运动。如何表示运动信息,使其能够被视频扩散模型有效利用,以合成图像动画。原创 2025-03-17 20:52:17 · 651 阅读 · 0 评论 -
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。原创 2025-03-17 20:45:27 · 1248 阅读 · 0 评论 -
即插即用!腾讯&港中文发布影视后期黑科技!VideoPainter:视频编辑修复8项SOTA!
生成完全遮挡目标:现有方法在处理完全遮挡的目标时存在困难。背景保留与前景生成的平衡:现有方法难以在保留背景的同时生成前景。长视频中的ID一致性:现有方法在长视频中难以保持目标ID的一致性。原创 2025-03-13 15:36:48 · 516 阅读 · 0 评论 -
他们吃的那么香,我都看饿了!港大&字节发布领先商用级图像视频生成模型Goku有点东西
现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。训练大规模生成模型的计算成本高,需优化并行计算与存储机制。原创 2025-03-11 05:45:43 · 683 阅读 · 0 评论 -
Hunyuan图生视频发布日期公布:北京时间3月6日16:00
今日,Hunyuan发布了图生视频的发布日期:北京时间3月6日16:00。Hunyuan I2V 是腾讯(Tencent)推出的一款先进的图像到视频生成模型(Image-to-Video Generation Model)。它能够将静态图像转换为动态视频,具有广泛的应用场景,如内容创作、广告制作、影视特效等。二月底,Hunyuan在 Twitter 上发布了一个到的链接,该链接允许首尾帧的 I2V。他们可能只是简单地将这个解决方案集成到本地的Hunyuan中,并且希望对它进行显著的优化。原创 2025-03-06 06:46:32 · 399 阅读 · 0 评论 -
一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。原创 2025-03-05 22:36:52 · 671 阅读 · 0 评论 -
告别800秒魔咒!硬件级STA革新视频DiT注意力,让HunyuanVideo效率提升3.5倍!
视频链接:https://www.youtube.com/watch?论文链接:https://arxiv.org/pdf/2502.04507Git链接:https://github.com/hao-ai-lab/FastVideo识别并量化了最先进的视频 DiT 中的 3D 局部性和头部 specialization,揭示了完整 3D 注意力中的大量冗余。引入了,一种基于分块的滑动窗口注意力机制。优化内核与 FlashAttention 3 相比实现了最小的开销,MFU 达到 58.79%。原创 2025-03-03 07:50:36 · 978 阅读 · 0 评论 -
开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型
身份失真:现有方法在动画生成过程中难以保持人物身份的稳定性,导致身份信息泄露或扭曲。背景不稳定:动画生成时背景容易出现抖动或不一致的现象。面部表情不真实:特别是在仅头部动画的场景中,面部表情缺乏真实感。全身动画的挑战:当动画扩展到全身时,现有方法容易产生视觉伪影或不自然的动作。身份与运动融合的困难:现有方法难以在保持身份一致性的同时,实现细腻的表情和动作生成。给定输入视频序列和参考肖像图像,从视频中提取表情感知的面部标志点,这些标志点作为运动描述符,用于将表情传递到肖像上。原创 2025-03-02 20:26:36 · 1230 阅读 · 0 评论 -
AI长视频生成终现“免费午餐“!RIFLEx颠覆性发现:调控频率就能突破时长魔咒
生成长视频的挑战:现有的视频生成模型在生成长视频时面临时间一致性差的问题,容易出现时间重复或运动减速的现象。长度外推技术的不足:现有的长度外推方法在应用于视频生成时表现不佳,导致时间重复和运动减速。原创 2025-03-01 08:24:53 · 941 阅读 · 0 评论 -
ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级
多粒度视频编辑的挑战,特别是文本到区域控制的语义不匹配和扩散模型内部的特征耦合问题。原创 2025-03-01 08:16:42 · 1383 阅读 · 0 评论 -
直击痛点,新一代身份保持视频生成解决方案!阿里等提出FantasyID:多视角与3D融合!
面部动态表现不足:现有的身份保持文本到视频生成(IPT2V)方法在生成视频时,难以在保持身份一致性的同时,实现满意的面部动态表现。“复制-粘贴”问题:使用单视角参考面部图像进行模型调优时,模型可能会简单地复制参考面部图像,导致生成视频中的面部表情和头部姿势缺乏多样性。层次化控制信号的敏感性:扩散Transformer(DiT)的层次化结构导致不同层对控制信号的敏感性不同,需要专门的调节策略来平衡身份保持和时间一致性。原创 2025-02-25 22:27:23 · 1193 阅读 · 0 评论 -
开放版Wanx 2.1发布在即:超越Sora,重新定义AI驱动视频生成
她的手臂张开,身体向后倾斜,展现了她的技巧和优雅」。为了最大限度地提升视觉生成质量,Wanx 2.1背后的研究团队在多个技术领域取得了显著进展:首先,通过利用专有的VAE(变分自编码器)和DiT(去噪扩散Transformer)框架,Wanx 2.1在增强时间和空间关系方面表现出色,从而在处理涉及复杂运动场景和物理规则时实现了更高的视觉真实感。此外,Wanx 2.1还实现了一个突破性里程碑,成为首个支持中英文字幕特效的视频生成模型,满足了广告设计和短视频制作等行业多样化的创意需求。原创 2025-02-24 07:29:42 · 631 阅读 · 0 评论 -
从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)
现有 DiT 生成的视频模型需要大规模参数和大量计算资源,导致计算成本高昂。生成高质量视频需要高分辨率和大量去噪步骤,进一步增加计算负担。现有的两阶段方法仍然依赖从高斯噪声重建高分辨率视频,计算效率低下。原创 2025-02-17 22:43:16 · 1064 阅读 · 0 评论 -
ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务
论文地址:https://arxiv.org/pdf/2409.04005项目主页:https://360cvgroup.github.io/Qihoo-T2X代码仓库:https://github.com/360CVGroup/Qihoo-T2X:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲。原创 2025-02-16 17:06:36 · 765 阅读 · 0 评论 -
1.8秒完成90帧视频重建,相比加速1000 倍!颜水成团队提出NutWorld:渲染速度可达450FPS
现有方法在表示随意拍摄的单目视频时,因缺乏时间一致性和显式3D结构,难以处理复杂运动、遮挡和几何一致性。如何高效地以空间和时间一致的方式表示单目视频,成为亟待解决的问题。原创 2025-02-08 23:57:53 · 793 阅读 · 0 评论 -
Video Depth Anything引领超长视频深度估计最新SOTA!字节跳动开源
在单目深度估计中表现出色,但在视频应用中存在时间不一致性的问题,限制了其实用性。现有方法虽然尝试解决这一问题,但仅适用于短视频,并在质量与计算效率之间存在权衡。原创 2025-02-04 09:49:33 · 1243 阅读 · 0 评论 -
视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp
解决的问题当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。提出的方案框架设计:提出了一个统一的视频生成传播框架——GenProp。使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。原创 2025-01-09 21:27:34 · 1615 阅读 · 0 评论 -
完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具
解决的问题人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。提出的方案本文引入Open-Sora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。原创 2025-01-06 23:34:03 · 2237 阅读 · 0 评论 -
是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy
解决的问题随着互联网规模的视频数据预训练的进展,文本生成视频(T2V)模型能够生成高质量的视频,涵盖各种视觉概念、合成逼真的动作以及渲染复杂的物体。然而,目前的T2V模型在生成的视频中缺乏物理常识,尤其是在模拟真实世界活动时,无法准确遵循物理法则。尽管已有一些评估视频质量的方法(如VBench),但这些方法并未特别关注生成视频的物理合法性。提出的方案VIDEOPHY,一个用于评估生成视频是否遵循物理常识的基准。原创 2025-01-05 23:15:11 · 537 阅读 · 0 评论 -
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
解决的问题多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。**提出的方案 **统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。原创 2025-01-02 22:31:05 · 2795 阅读 · 0 评论 -
无需训练!多提示视频生成最新SOTA!港中文&腾讯等发布DiTCtrl:基于MM-DiT架构
解决的问题当前的视频生成模型,尤其是基于单一提示(single-prompt)的模型,如Sora,主要聚焦于生成单一提示下的视频内容。它们在生成多个顺序提示(multi-prompt)的连贯场景时存在显著挑战,尤其是在动态场景中需要反映多个动作时,面临的问题包括:训练数据要求严格;提示跟随能力较弱;转场不自然,缺乏平滑过渡。提出的方案本文提出了DiTCtrl方法。原创 2024-12-29 10:39:19 · 1409 阅读 · 0 评论 -
超越VALOR,LLP上最新SOTA!MM-CSE:视听视频解析新方案!
视听视频解析(AVVP)任务需要识别并定位音频、视觉及音视频事件,现有方法通过整体特征进行模态内和跨模态时序建模,但存在语义混杂模态内干扰:在相同模态内与其他段落进行时序交互时,会引入不相关事件的语义。跨模态干扰:在不同模态间交互时,与部分相似或完全不同事件的段落交互时,容易引入无关语义。原创 2024-12-24 08:44:10 · 759 阅读 · 0 评论 -
文生图击败所有扩散SOTA方案!智源研究院等提出NOVA:迈向统一的多任务大模型
现有的自回归视频生成模型(如图像或视频片段通过向量量化转换为离散值标记空间后进行逐标记预测)面临着高保真度和高压缩率难以同时实现的问题。向量量化的标记生成方法需要更多的标记来保证高质量,从而导致图像分辨率或视频序列较长时,计算成本显著增加。在自回归(AR)视觉生成领域,现有方法通常采用栅格扫描预测,导致生成效率较低,且对于大规模视频数据的处理能力有限。提出了一种新的自回归视频生成方法,称为NOVA,通过不使用向量量化的方式进行视频生成建模。原创 2024-12-24 08:41:25 · 1496 阅读 · 0 评论 -
弥补2D拖拽缺陷!南大&蚂蚁等重磅开源LeviTor:首次引入3D目标轨迹控制,效果惊艳
现有的2D空间拖拽方法在处理平面外运动时存在歧义,无法有效控制图像到视频合成中的物体轨迹。原创 2024-12-23 22:10:49 · 670 阅读 · 0 评论 -
首次实现8K图像生成!FreeScale让扩散模型解锁更高分辨率!| 南洋理工&阿里&复旦
当前的视觉扩散模型由于高分辨率数据缺乏和计算资源限制,仅能在有限分辨率下训练,难以生成高保真图像或视频。在生成高于训练分辨率的内容时,模型容易引入高频信息,导致重复模式和低质量内容。原创 2024-12-16 23:00:05 · 764 阅读 · 0 评论 -
击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型
在基于扩散的生成模型中,迭代采样导致时间一致的视频生成困难。如何实现快速采样以提高生成效率。如何在音频驱动的头像图像动画中自然地融入情感和表现力丰富的动作。原创 2024-12-15 23:41:32 · 696 阅读 · 0 评论 -
OpenCompass排名第一!腾讯微信开源POINTS1.5:面向现实应用的VLM,支持双语
这些基准包括用于诊断一般能力的MMBench和 MMStar,用于测试STEM相关能力的MMMU,用于模型幻觉的HallusionBench,用于数学相关能力的MathVista,用于图表相关能力的AI2D,用于OCR能力的OCRBench,用于主观评估的MMVet。与此不同,POINTS1.5采用了NaViT风格的架构,沿用了Qwen2-VL 和Idefics2的方法,使其能够处理任意分辨率的图像,而无需拆分图像,从而在性能上大大超越了POINTS1.0中使用的双CLIP视觉编码器。原创 2024-12-15 23:37:23 · 985 阅读 · 0 评论 -
定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦&阿里等发布DreamVideo-2
现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。原创 2024-11-01 08:17:32 · 1389 阅读 · 0 评论 -
视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。原创 2024-10-22 08:26:06 · 885 阅读 · 0 评论 -
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!
值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹明显不太可能匹配时,Tora 动态地调整物体的局部运动,确保其整体运动仍然符合自然规律,并保持视觉的一致性。原创 2024-10-22 08:21:29 · 531 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1178 阅读 · 0 评论 -
视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。原创 2024-10-10 08:52:18 · 1475 阅读 · 0 评论 -
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 1033 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 1270 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 705 阅读 · 0 评论 -
360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
文章链接:https://arxiv.org/pdf/2408.08189项目链接:https://360cvgroup.github.io/FancyVideo/本文介绍了,据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。本文提出了跨帧文本指导模块(CTGM),该模块构建跨帧文本条件,并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。原创 2024-08-24 15:28:51 · 642 阅读 · 0 评论 -
勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
论文链接:https://arxiv.org/pdf/2408.11475项目链接:https://zhtjtcz.github.io/TrackGo-Page/亮点直击本文引入了一种新颖的运动可控视频生成方法,称为TrackGo。该方法为用户提供了一种灵活的运动控制机制,通过结合 masks 和箭头,实现了在复杂场景中的精确操控,包括涉及多个对象、细粒度对象部件和复杂运动轨迹的场景。本文开发了一个新组件,称为TrackAdapter,用于有效且高效地将运动控制信息集成到时间自注意力层中。原创 2024-08-24 15:24:04 · 944 阅读 · 0 评论 -
又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章链接:https://arxiv.org/pdf/2408.06072项目链接:https://github.com/THUDM/CogVideo近期,国产视频生成领域发展迅速,各家模型都在效果上下足了功夫,可谓神仙打架,前面分享过可灵,效果可以媲美Sora,这次智谱AI又发布了,效果如何呢,我们一起来看看。是一个基于文本提示生成视频的大规模扩散Transformer模型。为了高效地建模视频数据,提出使用3D变分自编码器(VAE)在空间和时间维度上对视频进行压缩。原创 2024-08-20 08:56:27 · 1554 阅读 · 0 评论