视频编辑
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!
精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。原创 2025-12-24 23:30:01 · 510 阅读 · 0 评论 -
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。原创 2025-12-23 23:29:43 · 1087 阅读 · 0 评论 -
直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等
弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。原创 2025-12-17 07:56:12 · 494 阅读 · 0 评论 -
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。具体问题前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。原创 2025-12-04 13:08:48 · 1014 阅读 · 0 评论 -
导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景
摘要: HoloCine提出了一种整体生成连贯多镜头电影视频的新框架,通过窗口交叉注意力机制实现精确的文本-镜头对齐控制,并采用稀疏镜头间自注意力降低计算复杂度,使分钟级视频生成成为可能。该模型在40万标注数据上训练,支持分层文本提示(全局场景描述+分镜头指令),显著提升了角色一致性、叙事连贯性和镜头过渡精度。实验显示,HoloCine在转场控制、长时序一致性等指标上超越现有方法,并展现出突现的记忆能力(如跨镜头的细节保持)与电影语言理解(如运镜、景别控制)。原创 2025-10-28 09:31:23 · 1181 阅读 · 0 评论 -
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件
《IVEBench:首个指令驱动视频编辑综合评测基准》提出了一套全面评估指令驱动视频编辑能力的基准系统。该研究针对当前视频编辑评测存在的三大局限:1)缺乏针对自然语言指令的评测体系;2)任务类型局限于静态图像编辑范式;3)评测维度不完整等问题,构建了包含600条高质量视频、覆盖7大语义维度的多样化数据库,并设计了8类35子类的视频编辑任务体系。 创新性地结合传统指标与多模态大模型(MLLM)评估,建立了包含12项定量指标的三维评估体系(视频质量/指令一致性/视频保真度)。原创 2025-10-28 09:26:38 · 768 阅读 · 0 评论 -
视频生成实时拖拽一切!南洋理工DragStream实现拖一下就能改大片,告别从头渲染!
本文提出了一种名为DragStream的无训练方法,用于实现流式拖拽导向交互视频操作(REVEL)任务。该任务允许用户在视频生成过程中随时通过拖拽操作对对象进行平移、变形和旋转等编辑与动画效果。针对REVEL任务中的两个关键挑战——拖拽引起的潜在分布漂移和上下文帧干扰,DragStream结合了自适应分布自校正(ADSR)策略和空间-频率选择性优化(SFSO)机制。ADSR利用相邻帧统计信息校正潜在嵌入分布,SFSO通过选择性传播视觉线索减轻上下文干扰。原创 2025-10-20 22:53:16 · 858 阅读 · 0 评论 -
史诗级突破!一个模型让你秒变PS大神,字节最新InstructX仅用“看图”就学会了剪视频
InstructX是一个创新的多模态框架,通过深度融合多模态大语言模型(MLLM)与扩散模型,实现了图像和视频编辑任务的统一处理。该研究系统分析了MLLM与扩散模型的集成方案,提出采用可学习查询、MLLM LoRA和MLP连接器的组合设计,显著提升了模型收敛速度和编辑性能。通过混合图像-视频训练策略,InstructX仅用图像数据就实现了零样本视频编辑能力,突破了高质量视频数据稀缺的限制。实验表明,该方法在图像和视频编辑任务中均达到SOTA水平,性能可媲美部分闭源商业系统。原创 2025-10-13 12:54:51 · 867 阅读 · 0 评论 -
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
摘要:本文提出VideoCanvas框架,统一解决任意时空视频补全任务,涵盖图像到视频、视频扩展、修补等场景。通过混合条件策略(空间零填充+时间RoPE插值),在冻结VAE的DiT模型上实现像素级控制,无需重新训练。构建VideoCanvasBench基准测试表明,该方法在保真度、动态性和一致性上优于现有技术,支持灵活的时间戳和空间区域控制,为可控视频生成提供了新范式。原创 2025-10-11 13:18:17 · 995 阅读 · 0 评论 -
ICCV`25 | 视频魔法再升级!字节新神器VTG:输入首尾图+描述词,瞬间生成超自然丝滑转场
本文提出了一种统一的多功能视频过渡生成框架VTG,能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题,结合双向运动微调提升时间连贯性,并引入表示对齐正则化增强保真度。实验表明,VTG在构建的TransitBench基准和公开数据集上均优于现有方法,实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。原创 2025-08-06 22:23:55 · 1246 阅读 · 0 评论 -
SIGGRAGH 2025 | AI视频生成新纪元!港大&达摩院发布LayerFlow:分层视频生成黑科技
LayerFlow一种创新的分层视频生成框架,能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成,并设计了多阶段训练策略:先使用低质量视频数据训练基础模型,再通过MotionLoRA适配静态图像,最后用ContentLoRA融合高质量图像与视频数据。实验表明,该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型,为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制,同时有效缓解了高质量分层视频数据稀缺的问题。原创 2025-06-18 13:32:09 · 698 阅读 · 0 评论 -
视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定
视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。原创 2025-06-18 13:06:53 · 921 阅读 · 0 评论 -
视频修复黑科技!SeedVR2一步出高清,对抗训练让模糊瞬间变好莱坞级!南洋理工&字节
摘要: 本文提出 SeedVR2,一种基于一步扩散模型的高效视频修复方法,通过 自适应窗口注意力机制 动态调整窗口大小,解决高分辨率(如1080p)修复中的窗口不一致问题。结合 对抗式后训练 和渐进式蒸馏策略,优化损失函数(如特征匹配损失),显著提升模型稳定性与修复质量。实验表明,SeedVR2在合成与真实场景数据上均优于现有方法,推理速度比多步扩散模型快4倍以上,兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。原创 2025-06-15 22:53:32 · 1501 阅读 · 0 评论 -
即插即用!腾讯&港中文发布影视后期黑科技!VideoPainter:视频编辑修复8项SOTA!
生成完全遮挡目标:现有方法在处理完全遮挡的目标时存在困难。背景保留与前景生成的平衡:现有方法难以在保留背景的同时生成前景。长视频中的ID一致性:现有方法在长视频中难以保持目标ID的一致性。原创 2025-03-13 15:36:48 · 846 阅读 · 0 评论 -
ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级
多粒度视频编辑的挑战,特别是文本到区域控制的语义不匹配和扩散模型内部的特征耦合问题。原创 2025-03-01 08:16:42 · 1679 阅读 · 0 评论 -
视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp
解决的问题当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。提出的方案框架设计:提出了一个统一的视频生成传播框架——GenProp。使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。原创 2025-01-09 21:27:34 · 1955 阅读 · 0 评论
分享