视频生成
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
5万吊打百万级SOTA!UTS新作VideoCoF:首创“帧链思维”统一视频编辑模型,效果惊艳!
精度与统一性的两难困境:现有的专家模型依赖掩码,精度高但模型无法统一;而统一的上下文模型虽然架构简洁,但缺乏显式的空间提示,导致指令与区域映射微弱,定位不准。长视频外推能力缺失:现有模型通常难以处理超出训练时长的视频,简单的时序拼接会导致位置编码失效,产生运动错位或伪影。VideoCoF 的提出,打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制(Chain-of-Frames),VideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。原创 2025-12-24 23:30:01 · 510 阅读 · 0 评论 -
大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量视频喂出“最强大脑”
提出了 Motus,这是一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型 WMs、逆动力学模型 IDMs、视觉-语言-动作模型 VLAs、视频生成模型 VGMs 以及 视频-动作联合预测模型),且未牺牲通用的多模态先验。:引入了混合 Transformer (Mixture-of-Transformer, MoT) 架构,通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家。原创 2025-12-23 23:34:59 · 848 阅读 · 0 评论 -
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。原创 2025-12-23 23:29:43 · 1087 阅读 · 0 评论 -
加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion
文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。原创 2025-12-22 21:43:57 · 662 阅读 · 0 评论 -
NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench:全能故事可视化基准首发!
评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。如果把“故事可视化”理解成一次跨媒介的“编码—传输—解码”:文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。这相当于把“叙事传播”拆成可标注、可复核的单位,让评测不再停留在“感觉像不像”。原创 2025-12-22 21:37:38 · 879 阅读 · 0 评论 -
ICCV`25 | 视频交互“随心所欲”!复旦&通义万相等开源DreamRelation:让想象力从此无边界
项目链接:https://dreamrelation.github.io/文章链接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wei_DreamRelation_Relation-Centric_Video_Customization_ICCV_2025_paper.pdf开源链接:https://github.com/ali-vilab/DreamRelation。原创 2025-12-18 13:37:45 · 690 阅读 · 0 评论 -
直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等
弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。原创 2025-12-17 07:56:12 · 494 阅读 · 0 评论 -
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。原创 2025-12-15 23:09:53 · 1145 阅读 · 0 评论 -
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。具体问题前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。原创 2025-12-04 13:08:48 · 1014 阅读 · 0 评论 -
港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!
本文介绍了AnyTalker框架,用于生成自然的多人说话视频。该框架引入了可扩展的音频-人脸交叉注意力结构,支持任意数量角色的驱动,并通过创新的两阶段训练方法(先利用单人数据模拟多人说话,再微调增强互动)显著降低了多人生成模型的训练成本。此外,文章首创了基于眼部动作的交互性定量评估指标及其配套数据集。实验表明,AnyTalker在口型同步、视频质量和角色间互动自然度上均优于现有方法。原创 2025-12-04 13:01:25 · 995 阅读 · 0 评论 -
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!
《RollingForcing:实时自回归长视频扩散技术》提出了一种创新框架,通过滚动窗口联合去噪技术和注意力汇机制,实现了单个GPU上16fps的实时长视频生成。该技术突破性地解决了传统流视频生成中的误差累积问题,能在数分钟时长的视频中保持高质量和一致性。通过双向注意力优化和全局上下文锚定,系统显著降低了长期质量漂移,同时采用高效训练算法减轻曝光偏差。实验表明,该方法在视觉保真度、时间一致性和实时性能上均优于现有技术,为长视频流媒体应用提供了实用解决方案。原创 2025-12-03 13:51:11 · 630 阅读 · 0 评论 -
多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2
Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供了新思路。原创 2025-12-03 13:41:34 · 659 阅读 · 0 评论 -
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
StreamingVLM提出了一种统一的流式视觉语言模型框架,通过创新的训练-推理对齐机制解决长视频处理难题。核心贡献包括:1)采用重叠窗口全注意力训练策略,使短视频训练自然适配无限长度推理;2)设计分层KV缓存机制(注意力汇聚+非对称视觉/文本窗口),在单卡H100上实现8FPS稳定流式推理;3)构建首个超2小时的长时视频评测基准Inf-Streams。实验表明,该方法在解说质量上超越GPT-4omini 66.18%胜率,并在VQA任务中提升5.96%准确率,为实时视频理解提供了实用解决方案。原创 2025-12-02 13:43:11 · 1010 阅读 · 0 评论 -
《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!
Hunyuan-GameCraft-2提出了一种指令驱动的交互式游戏世界模型,通过集成文本、键盘和鼠标信号实现语义化交互控制。该模型采用14B参数的MoE架构,结合自回归蒸馏与随机化长视频微调技术,支持高效稳定的长时序视频生成。创新性地定义了交互式视频数据标准,并开发了自动化数据构建管道。实验表明,模型在InterBench基准上取得SOTA性能,能以16FPS实时生成高质量交互视频,显著提升了动作有效性(触发率0.96+)、因果连贯性和物理合理性。原创 2025-12-02 13:34:31 · 637 阅读 · 0 评论 -
图像生成开源界又出“王炸”!南洋理工&阶跃星辰发布iMontage:解锁“多对多”生成新玩法!
摘要 iMontage提出了一种统一的多对多图像生成框架,能够处理可变数量的输入/输出帧,弥合了视频生成与高动态图像生成之间的鸿沟。该模型基于预训练视频骨干网络,通过低侵入式适配策略和任务无关的时序多样化数据管道,结合多任务训练范式,实现了跨异构任务的强大泛化能力。实验表明,iMontage在图像编辑、多条件生成、多视图合成等任务中性能卓越,部分效果媲美商业模型。其核心创新包括:1)混合多模态扩散Transformer架构;2)可分离时间RoPE的位置编码策略;3)分阶段课程训练方案。原创 2025-12-01 13:10:54 · 1770 阅读 · 0 评论 -
告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA
本文提出视频化下一代事件预测(VNEP)新任务,将事件推理从文本描述升级为动态视频演示。针对该任务的多模态协同挑战,作者设计了VANS框架:通过联合分组相对策略优化(Joint-GRPO)算法,分阶段协调视觉语言模型(VLM)和视频扩散模型(VDM)。VLM首先生成视觉友好的事件描述,VDM随后生成语义准确且视觉连贯的预测视频。为支持模型训练,构建了包含10万样本的VANS-Data-100K数据集。原创 2025-11-24 22:16:56 · 914 阅读 · 0 评论 -
导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景
摘要: HoloCine提出了一种整体生成连贯多镜头电影视频的新框架,通过窗口交叉注意力机制实现精确的文本-镜头对齐控制,并采用稀疏镜头间自注意力降低计算复杂度,使分钟级视频生成成为可能。该模型在40万标注数据上训练,支持分层文本提示(全局场景描述+分镜头指令),显著提升了角色一致性、叙事连贯性和镜头过渡精度。实验显示,HoloCine在转场控制、长时序一致性等指标上超越现有方法,并展现出突现的记忆能力(如跨镜头的细节保持)与电影语言理解(如运镜、景别控制)。原创 2025-10-28 09:31:23 · 1181 阅读 · 0 评论 -
视频生成实时拖拽一切!南洋理工DragStream实现拖一下就能改大片,告别从头渲染!
本文提出了一种名为DragStream的无训练方法,用于实现流式拖拽导向交互视频操作(REVEL)任务。该任务允许用户在视频生成过程中随时通过拖拽操作对对象进行平移、变形和旋转等编辑与动画效果。针对REVEL任务中的两个关键挑战——拖拽引起的潜在分布漂移和上下文帧干扰,DragStream结合了自适应分布自校正(ADSR)策略和空间-频率选择性优化(SFSO)机制。ADSR利用相邻帧统计信息校正潜在嵌入分布,SFSO通过选择性传播视觉线索减轻上下文干扰。原创 2025-10-20 22:53:16 · 858 阅读 · 0 评论 -
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
Lynx是一个高保真的个性化视频生成框架,通过两个轻量级适配器(ID-adapter和Ref-adapter)实现从单张图像中保留主体身份。ID-adapter通过交叉注意力注入面部识别特征,Ref-adapter整合VAE编码器的密集特征以增强细节保留。该框架采用时空帧打包和渐进式训练策略,在包含40个主体和20个提示的基准测试中展现出卓越的面部相似性和视频质量,同时保持自然的动作和语义对齐,超越了现有方法。Lynx为个性化视频生成提供了身份保留与生成质量的平衡解决方案。原创 2025-10-11 13:21:50 · 676 阅读 · 0 评论 -
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
摘要:本文提出VideoCanvas框架,统一解决任意时空视频补全任务,涵盖图像到视频、视频扩展、修补等场景。通过混合条件策略(空间零填充+时间RoPE插值),在冻结VAE的DiT模型上实现像素级控制,无需重新训练。构建VideoCanvasBench基准测试表明,该方法在保真度、动态性和一致性上优于现有技术,支持灵活的时间戳和空间区域控制,为可控视频生成提供了新范式。原创 2025-10-11 13:18:17 · 995 阅读 · 0 评论 -
革新视频生成速度的秘密武器!英伟达最新DC-VideoGen:超高清生成实现近15倍加速
本文提出DC-VideoGen框架,通过深度压缩视频自动编码器(DC-AE-V)和轻量级微调策略(AE-Adapt-V),显著提升视频扩散模型的效率。DC-AE-V采用块因果时间设计,在保持重建质量的同时减少潜在空间token数量;AE-Adapt-V通过两阶段适配策略,使预训练模型快速适应新潜在空间。实验表明,该方法在文本/图像到视频生成任务中实现7.7-14.8倍加速,VBench分数提升,且仅需10个GPU天的微调成本。该框架支持单GPU生成4K视频,为高效视频合成提供了实用解决方案。原创 2025-10-09 08:10:11 · 1165 阅读 · 0 评论 -
告别“无脑”生成!VChain视频推理链:仅靠几个关键帧,自动拍出因果清晰的“电影级”短片
VChain:基于视觉思维链的视频生成推理框架 VChain提出了一种创新的视频生成方法,通过引入多模态大模型的视觉思维链(chain-of-visual-thought)来增强视频的逻辑连贯性。该框架的核心是利用GPT等大型模型推理生成具有因果关系的稀疏关键帧序列,作为视频生成的指导。在推理阶段仅对这些关键帧进行轻量化微调,显著提升了复杂动态场景的生成质量,如物体交互和状态转变。实验表明,VChain在保持基础视觉质量的同时,在物理合理性、常识推理和因果一致性等方面表现优异。原创 2025-10-09 08:06:14 · 861 阅读 · 0 评论 -
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!
Self-Forcing++突破长视频生成瓶颈 摘要:本文提出Self-Forcing++框架,解决了自回归模型在生成长视频时面临的时间性和监督不匹配问题。通过让学生在自身错误累积的长轨迹上进行校正,并利用教师模型的片段指导,该方法实现了三大突破。原创 2025-10-08 16:00:29 · 1585 阅读 · 0 评论 -
视频生成迎来效率革命!字节提出视频生成稀疏注意力机制,计算量降20倍,速度升17.79倍!
BSA框架提出了一种可训练的双向动态稀疏注意力机制,首次在视频扩散训练中对查询(Query)和键值对(Key-Value)进行正交稀疏化处理。该方法设计了不同的动态稀疏策略:针对查询块,基于语义相似度选择关键token;针对键值块,采用统计动态阈值选择关键子集。实验表明,BSA在Wan2.1-1.3B数据集上实现了20倍FLOPs降低、17.7倍训练加速和6倍推理加速,同时保持或超越全注意力机制的生成质量。该框架有效解决了视频DiT模型在高分辨率长视频生成中的计算瓶颈问题。原创 2025-09-10 07:46:43 · 827 阅读 · 0 评论 -
分钟级长视频生成迎来“记忆革命”,7倍成本降低,2.2倍端到端生成速度提升!|斯坦福&字节
本文提出了一种自适应上下文混合(MoC)框架,通过动态路由机制解决长视频生成中的计算瓶颈问题。MoC将每个查询路由到最相关的视频片段,替代传统稀疏注意力机制,并引入因果路由mask确保交互图的无环性。实验表明,该方法能裁剪85%以上的token对,将注意力计算成本降低7倍,在18万token的分钟级视频生成中实现2.2倍加速,同时保持生成质量。创新性地将长视频生成转化为内部检索任务,首次验证了学习型稀疏路由在实际应用中的有效性。原创 2025-09-09 07:45:12 · 1040 阅读 · 0 评论 -
AI试衣间实现360度全身自由!SpreeAI带来VirtualFittingRoom:让自拍秒变沉浸式换装秀
【摘要】VFR框架突破性地实现了从单张图片生成任意时长(720×1152分辨率,24FPS)的高质量虚拟试衣视频,解决了现有技术局限于静态图像或超短视频的痛点。该研究通过自回归分段生成策略,结合"锚视频"全局引导和"前缀条件"局部优化,在保持3D一致性的同时,创新性地实现了分钟级视频的平滑过渡与时间连贯性。实验表明,该方法在四个评估维度(服装/人体一致性、手部交互、任意姿势)上均显著优于基线模型,且支持自由视角渲染。原创 2025-09-08 07:56:13 · 1194 阅读 · 0 评论 -
LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化
本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。原创 2025-08-07 22:24:05 · 1157 阅读 · 0 评论 -
ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
TokensGen提出创新两阶段框架解决长视频生成难题:1)To2V模型通过视频Tokenizer将短片段压缩为高语义密度Token,实现精细内容控制;2)T2To模型采用扩散Transformer一次性生成长视频Token序列,确保长期一致性。关键技术突破包括自适应FIFO-Diffusion对角去噪策略实现平滑过渡,以及基于PCA的轻量降维保持90%以上压缩率。实验表明,该方法在2分钟视频生成中显著优于主流基线,运动平滑度指标提升20%+,同时支持零拍摄长视频编辑。原创 2025-08-06 22:27:27 · 1616 阅读 · 0 评论 -
ICCV`25 | 视频魔法再升级!字节新神器VTG:输入首尾图+描述词,瞬间生成超自然丝滑转场
本文提出了一种统一的多功能视频过渡生成框架VTG,能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题,结合双向运动微调提升时间连贯性,并引入表示对齐正则化增强保真度。实验表明,VTG在构建的TransitBench基准和公开数据集上均优于现有方法,实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。原创 2025-08-06 22:23:55 · 1246 阅读 · 0 评论 -
SIGGRAGH 2025 | AI视频生成新纪元!港大&达摩院发布LayerFlow:分层视频生成黑科技
LayerFlow一种创新的分层视频生成框架,能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成,并设计了多阶段训练策略:先使用低质量视频数据训练基础模型,再通过MotionLoRA适配静态图像,最后用ContentLoRA融合高质量图像与视频数据。实验表明,该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型,为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制,同时有效缓解了高质量分层视频数据稀缺的问题。原创 2025-06-18 13:32:09 · 698 阅读 · 0 评论 -
视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定
视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。原创 2025-06-18 13:06:53 · 921 阅读 · 0 评论 -
视频修复黑科技!SeedVR2一步出高清,对抗训练让模糊瞬间变好莱坞级!南洋理工&字节
摘要: 本文提出 SeedVR2,一种基于一步扩散模型的高效视频修复方法,通过 自适应窗口注意力机制 动态调整窗口大小,解决高分辨率(如1080p)修复中的窗口不一致问题。结合 对抗式后训练 和渐进式蒸馏策略,优化损失函数(如特征匹配损失),显著提升模型稳定性与修复质量。实验表明,SeedVR2在合成与真实场景数据上均优于现有方法,推理速度比多步扩散模型快4倍以上,兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。原创 2025-06-15 22:53:32 · 1501 阅读 · 0 评论 -
优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!
HunyuanCustom是一种创新的多模态定制视频生成框架,首次实现了图像、音频、视频和文本四模态联合驱动的视频生成,突破了传统单模态(如图像)的限制。该框架通过时序拼接和跨帧特征增强,显著提升了生成视频中主题的身份一致性,优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制,如AudioNet和视频Patchify对齐,实现了多模态条件的高效解耦与融合,兼顾了灵活性与性能。原创 2025-05-11 23:27:00 · 922 阅读 · 0 评论 -
CVPR`25 | SOTA!首揭PCA解决长视频低质问题!FreePCA让长视频丝滑如电影!(中科大)
长视频生成的分布偏移问题使用基于短视频训练的模型生成长视频时,由于帧数变化导致数据分布偏移,出现质量下降、物体缺失和运动缓慢等问题。全局与局部信息难以有效融合现有方法(如全局对齐或局部滑动窗口拼接)无法兼顾全局一致性和局部质量,导致视频出现运动不一致或视觉质量下降。外观与运动耦合的挑战视频中的外观和运动高度耦合,直接融合全局和局部特征会导致生成结果不协调。原创 2025-05-07 22:48:53 · 950 阅读 · 0 评论 -
颠覆影视圈!全球首个开源「无限时长」电影生成模型炸场:昆仑万维把视频生成卷到新时代
Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成。Training Stability(训练稳定性)原创 2025-04-24 22:32:13 · 1625 阅读 · 0 评论 -
让数字人视频告别“恐怖谷“!字节团队最新DreamActor-M1实现人类表情动作像素级操控
最近的基于图像的人像动画方法在逼真的身体和面部动作合成方面取得了一定进展,但在细粒度整体可控性、多尺度适应性和长期时间一致性上仍存在不足,导致表现力和鲁棒性较低。原创 2025-04-23 07:58:28 · 1440 阅读 · 0 评论 -
AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构,导致失真。缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。OmniTr数据集:填补多模态长序列轨迹数据的空白。6DoF长序列控制。原创 2025-04-13 10:13:45 · 1234 阅读 · 0 评论 -
炸裂!昆仑万维开源「元素级视频生成」神器SkyReels-A2!效果吊打闭源商业模型!
元素保真问题:现有视频生成模型难以在生成过程中严格保持多参考元素(如角色、物体、背景)的外观一致性。场景协调性:需解决多元素组合时的全局协调性(如自然交互、合理构图),避免生成内容割裂或失真。输出自然性:传统方法(如I2V)易依赖初始帧的“复制粘贴”,导致动态效果生硬;T2V则因随机性难以控制具体元素。缺乏评估基准:当前缺少针对多元素视频生成(E2V)任务的系统化评估标准。原创 2025-04-12 09:02:39 · 1077 阅读 · 0 评论 -
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。原创 2025-04-11 23:26:45 · 1437 阅读 · 0 评论 -
单图秒变好莱坞级运镜!MagicMotion实现多物体丝滑运动,复杂场景帧级精准对齐(复旦&微软)
复杂对象运动和多对象运动控制的困难:现有方法在处理复杂对象运动和多对象运动控制时,存在轨迹遵循不精确、对象一致性差和视觉质量下降的问题。单一轨迹控制格式的限制:现有方法仅支持单一格式的轨迹控制,限制了其在不同场景中的适用性。缺乏专门的数据集和基准:目前没有公开的大规模数据集或基准专门用于轨迹可控视频生成,阻碍了鲁棒训练和系统评估。本文的工作主要集中在轨迹可控的视频生成上。给定输入图像 和多个轨迹图 ,模型可以生成符合提供轨迹的视频 ,其中 表示生成视频的长度。本节首先详细解释本文的模型架构。原创 2025-03-29 23:17:34 · 1083 阅读 · 0 评论
分享