拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式

关注公众号,发现CV技术之美

本文共同第一作者为复旦大学研究生李全昊、邢桢,通讯作者为复旦大学吴祖煊副教授。

近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。

此外,这些方法通常仅支持单一格式的轨迹控制,限制了其在不同应用场景中的灵活性。不仅如此,目前尚无专门针对轨迹可控视频生成的公开数据集或评价基准,阻碍了该领域的更进一步的深入研究与系统性评估。

为了解决这些挑战,研究人员提出了 MagicMotion,一种创新的图像到视频生成框架,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。

在给定一张输入图像和对应物体轨迹的情况下,MagicMotion 能够精准地控制物体沿着指定轨迹运动,同时保持视频的视觉质量。

此外,本文构建了 MagicData,一个大规模的轨迹控制视频数据集,并配备了一套自动化的标注与筛选流程,以提升数据质量和处理效率。

本文还引入了 MagicBench,一个专为轨迹控制视频生成设计的综合评测基准,旨在评估在控制不同数量物体运动情况下的视频质量及轨迹控制精度。

大量实验表明,MagicMotion 在多个关键指标上均超越现有方法,展现出卓越的性能。


  • 论文地址:https://arxiv.org/abs/2503.16421

  • 论文主页:https://quanhaol.github.io/magicmotion-site/

  • 论文标题:MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance


方法介绍

MagicMotion 基于 CogVideoX5B-I2V 这一图像到视频生成模型,并引入了额外的轨迹控制网络(Trajectory ControlNet)。该设计能够高效地将不同类型的轨迹信息编码到视频生成模型中,实现轨迹可控的视频生成。

如图所示,本文使用 3D VAE 编码器将轨迹图编码到隐空间,然后将其与编码后的视频拼接,作为轨迹控制网络的输入。轨迹控制网络由所有预训练的 DiT 模块的可训练副本构建而成,用于编码用户提供的轨迹信息。每个轨迹控制网络模块的输出随后会通过一个零初始化的卷积层进行处理,并添加到基础模型中对应的 DiT 模块,以提供轨迹引导。

MagicMotion 采用了从密集轨迹控制到稀疏轨迹控制的渐进式训练过程,其中每个阶段都用前一阶段的权重来初始化其模型。这使得能够实现从密集到稀疏的三种类型的轨迹控制。

本文发现,与使用稀疏条件从头开始训练相比,这种渐进式训练策略有助于模型取得更好的性能。具体来说,本文在各个阶段采用以下轨迹条件:阶段 1 使用分割掩码,阶段 2 使用边界框,阶段 3 使用稀疏边界框,其中少于 10 帧有边界框标注。此外,本文总是将轨迹条件的第一帧设置为分割掩码,以指定应该移动的前景对象。

此外,MagicMotion 还提出了隐分割损失(latent segment loss),它在模型训练过程中引入分割掩码信息,增强了模型对物体细粒度形状的感知能力。研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。

研究者还提出了一个全新的自动数据处理流程,包括两个主要阶段:数据整理流程(Curation Pipeline)和数据筛选流程(Filtering Pipeline)。数据整理流程负责从大规模的视频-文本数据集中构造轨迹信息,而数据筛选流程则确保在训练前移除不适合的视频。


实验与结果

MagicMotion的每个阶段都在MagicData上训练一个轮次。训练过程包括三个阶段。阶段1从零开始训练轨迹控制网络(Trajectory ControlNet)。在阶段2中,使用阶段1的权重进一步优化轨迹控制网络(Trajectory ControlNet),同时从零开始训练分割头(Segment Head)。

最后,在阶段3中,轨迹控制网络(Trajectory ControlNet)和分割头(Segment Head)都使用阶段2的权重继续训练。研究者采用AdamW作为优化器,所有训练实验均在 4 张 NVIDIA A100-80G GPU 上进行,学习率设为 1e-5。

研究者将 MagicMotion 与7种流行的轨迹可控图像到视频(I2V)方法进行了对比,在MagicBench和DAVIS上对所有方法进行评估。

结果如下表所示,MagicMotion在MagicBench和DAVIS上的所有指标上都优于以往的所有方法,这表明它能够生成更高质量的视频并实现更精确的轨迹控制。

此外,本文根据受控对象的数量评估了每种方法在MagicBench上的性能。如下图所示,MagicMotion方法在所有受控物体数量的类别中都取得了最佳结果,进一步证明了该方法的优越性。

定性对比结果

如下图所示,Tora能够精准控制运动轨迹,但难以精确保持物体的形状。DragAnything 、ImageConductor 和 MotionI2V 在保持主体一致性方面存在困难,导致后续帧中出现明显的形变。同时,DragNUWA、LeviTor 和 SG-I2V生成的结果经常出现视频质量低下和细节不一致的问题。相比之下,MagicMotion能够使移动的物体平滑地沿指定轨迹运动,同时保持高质量的视频生成效果。

最新 AI 进展报道
请联系:amos@52cv.net

END

欢迎加入「视频生成交流群👇备注:生成

印刷电路板(PCB)作为电子元件的关键支撑体,在电子设备中扮演着不可或缺的角色,其市场发展态势备受关注。QYResearch 的调研数据为我们揭示了该市场的全景:2024 年,全球印刷电路板市场规模约达 782.9 亿美元,而展望 2031 年,这一数字有望攀升至 1012.7 亿美元,在 2025 - 2031 期间,年复合增长率(CAGR)预计保持在 3.8%。然而,当前美国 2025 年关税框架的潜在变动,已然在全球市场掀起波澜,对印刷电路板市场的竞争格局、区域经济协同以及供应链体系产生着深远影响。 一、印刷电路板基础概述 印刷电路板,又被称作印制电路板或印刷线路板,常见英文缩写为 PCB(Printed circuit board)或 PWB(Printed wire board)。其内部存在金属导体,承担着连接电子元器件线路的重任。传统电路板主要运用印刷蚀刻阻剂的工艺,以此构建电路的线路与图面,这也是其名称的由来。在现代电子技术领域,PCB 通过电子印刷术制造而成,它成功搭建起电子元器件之间的电气连接桥梁,成为各类电子设备的核心组件。无论是体积小巧的智能穿戴设备,还是大型的服务器系统,只要其中配备集成电路等电子元件,PCB 必然 “参与其中”。 二、市场规模增长引擎 (一)中国主导地位凸显 中国在全球印刷电路板市场中占据着举足轻重的地位。据预测,2025 年中国市场规模有望达到 4333.21 亿元,在全球市场的占比将超过 50%。这一卓越成绩的背后,人工智能(AI)与能源汽车产业功不可没,二者已成为驱动中国 PCB 市场增长的核心动力。以 AI 产业为例,随着 AI 技术的迅猛发展,对算力的需求呈爆发式增长,这使得 AI 服务器的市场需求大幅提升。而每台 AI 服务器中 PCB 的价值量可达 5000 元,预计到 2025 年,全球 AI 服务器相关的 PC
资源下载链接为: https://pan.quark.cn/s/637cf229ceb0 “official_web_copy_redbook” 是一个以小红书官网首页为蓝本,运用多种前端技术搭建而成的示例项目。开发者运用了 Bootstrap、jQuery、HTML5、CSS 以及 JavaScript 等一系列技术栈来完成页面制作。以下是对这些技术及其在项目中应用的详细阐述。 HTML5 作为超文本标记语言的最版本,为网页开发带来了诸多元素和功能,其核心目标是提升网页的可读性、可访问性与互动性。在本项目中,HTML5 承担着构建网页基本架构的重任,它通过定义头部、导航、主体、底部等不同内容区块,清晰地划分页面结构。出现的 <nav>、<section>、<article> 等元素,赋予了页面更强的语义化特性,这不仅有利于搜索引擎进行优化处理,也为无障碍访问提供了有力支持。 CSS(层叠样式表)主要负责掌控网页的外观与布局。在该项目里,CSS 被充分运用于定制小红书首页的视觉风格,涵盖颜色搭配、字体选择、间距设置以及整体布局等多个方面。借助 CSS,开发者能够实现响应式设计,确保页面在不同设备和各种屏幕尺寸下都能呈现出良好的显示效果。而 CSS3 的出现,更是引入了动画和过渡效果,这些效果或许被用于增强用户体验,例如制作按钮悬停时的特效、页面滚动时的动画等。 Bootstrap 是一款广受欢迎的开源前端框架,它集成了预设的 CSS 样式、JavaScript 组件以及网格系统,极大地提高了网页开发的效率。在仿小红书首页项目中,Bootstrap 很可能被用来快速搭建响应式布局,简化栅格设计流程,并提供诸如模态框、下拉菜单、按钮等交互元素。其包含的 CSS 和 JavaScript 库,能够助力开发者维持设计的一致性与专业性。 jQuery 是一个轻量级的 JavaS
内容概要:该蓝皮书全面解析了乳制品行业低温渠道的发展现状与未来趋势,重点关注冷链效率和终端竞争策略。首先介绍了低温乳制品的概念、营养价值及其消费趋势,强调了其在健康意识提升、消费升级和冷链物流完善的背景下需求增长的驱动因素。其次详细阐述了冷链物流在保障乳制品品质中的关键作用,包括储存、运输、加工与包装等环节的低温保持及信息化管理。接着分析了市场现状,指出市场规模的增长态势、消费结构与场景,并剖析了全国性和区域性乳企的竞争格局,以及进入者面临的挑战和机遇。最后提出了冷链效率提升的具体策略,如需求预测、网络优化、技术创等,并探讨了终端竞争策略,包括产品差异化、渠道拓展、品牌建设和客户关系管理。; 适合人群:从事乳制品行业及相关冷链物流领域的从业者、投资者、研究者,以及对乳制品市场感兴趣的消费者。; 使用场景及目标:①了解低温乳制品的特点、营养价值和发展趋势;②掌握冷链物流的关键技术和管理方法;③分析市场现状和竞争格局,为企业发展战略提供参考;④探索提升冷链效率和增强终端竞争力的有效途径。; 其他说明:此蓝皮书基于详尽的数据分析和案例研究,为企业决策者提供全面的市场洞察和技术指导,有助于把握行业发展脉搏,制定科学合理的经营策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值