视频编辑的新成果!港科大&蚂蚁集团提出Ditto框架刷新SOTA!

论文标题:Scaling Instruction-Based VideoEditing with a High-Quality Synthetic Dataset

作者团队:香港科大、蚂蚁集团、浙江大学、东北大学

发布时间:2025年10月17日

👉一键直达论文

[👉Lab4AI大模型实验室论文阅读](https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=lab4ai_jssq_csdn
_Ditto&id=03e89d3d4c294a38a33e46328ce25993)

✅Lab4AI平台提供AI导读和翻译等工具,辅助您的论文阅读。

✨本文核心贡献

(1)提出Ditto数据生成框架

突破现有方法的“成本-质量-多样性”权衡:融合先进图像编辑器的视觉先验与上下文视频生成器(VACE),结合模型蒸馏与量化技术,将计算成本降至原始高保真方法的20%,同时保证时间一致性与编辑质量。
自动化流程:通过视觉语言模型(VLM)实现指令生成与质量筛选,无需人工干预,支撑大规模数据生产。

(2)构建Ditto-1M数据集

规模与质量:包含100万“源视频-指令-编辑后视频”三元组,分辨率1280×720(超现有数据集),每段101帧、20FPS,覆盖70%全局编辑(风格、场景)与30%局部编辑(物体操作)。
数据筛选严格:源视频来自专业平台(Pexels),经去重、运动筛选、VLM质量控制,确保高美学价值与自然运动特性。

(3)提出Editto模型与模态课程学习

  • Editto模型:基于上下文视频生成器VACE改进,在Ditto-1M上训练后,在指令跟随、时间一致性、视觉质量上超越现有基线,成为指令驱动视频编辑的新SOTA。
  • 模态课程学习(MCL):通过“逐步移除视觉引导”的训练策略,解决从“视觉+文本引导”到“纯文本指令引导”的模态鸿沟,提升模型对抽象指令的理解能力。

(4)验证框架有效性

实验证明Ditto框架生成的数据可支撑模型泛化至真实场景(sim2real能力),且Editto模型性能随数据规模增长而稳定提升,验证了大规模高质量数据的核心价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值