AIGC
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
顶刊TPAMI!字节联合中科大重磅打造文本到图像定制化生成新范式!
论文链接:https://ieeexplore.ieee.org/abstract/document/11206511代码链接:https://github.com/bytedance/RealCustom项目链接:https://corleone-huang.github.io/RealCustom_plus_plus/突破传统方法存在的主体一致性和文本可控性之间的权衡取舍问题,创新性地将参考图主体表征为真实文本单词,通过解耦文本和参考图的影响区域,同时实现高度主体一致性和文本可控性;原创 2025-12-24 23:36:20 · 318 阅读 · 0 评论 -
加速近200倍!RTX 5090生成高质量视频只要1.9秒!清华&生数等重磅开源TurboDiffusion
文章链接:https://arxiv.org/pdf/2512.16093代码链接: https://github.com/thu-ml/TurboDiffusion提出了一种端到端的视频生成加速框架,在保持视频质量的同时,将扩散模型的生成速度提升了。单张 RTX 5090 GPU 上,该框架能将原本耗时数分钟甚至数小时的视频生成过程缩短至几秒钟(例如从 184 秒缩短至 1.9 秒),实现了实时级别的视频生成体验。原创 2025-12-22 21:43:57 · 661 阅读 · 0 评论 -
彻底告别VAE!清华x可灵联手开源SVG-T2I:生成理解合二为一,性能媲美SD3
核心挑战:视觉基础模型虽然在理解与感知上表现出色,但其表征空间尚未被充分用于大规模、高质量的视觉生成。研究空白:在VFM特征空间内端到端地训练大规模文本到图像生成模型是一个未经充分探索的领域,缺乏相关验证和可行的方案。原创 2025-12-18 07:48:18 · 811 阅读 · 0 评论 -
直播革命来了!StreamDiffusionV2:140亿参数实时视频飙上58FPS!伯克利&韩松团队等
弥合了离线视频扩散与受实时SLO约束的直播流媒体之间的差距。本免训练系统将SLO-aware批处理/块调度器与sink-token引导的滚动KV缓存、运动感知噪声控制器以及pipeline编排相结合,后者通过并行去噪步骤和模型层实现近线性FPS扩展,而不违反延迟要求。它在异构GPU上运行,支持灵活步骤计数,实现0.5 s TTFF,并在4×H100上达到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步骤增加也能维持高FPS。原创 2025-12-17 07:56:12 · 494 阅读 · 0 评论 -
Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!
解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。原创 2025-12-16 13:56:35 · 720 阅读 · 0 评论 -
视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!
IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。原创 2025-12-16 13:52:48 · 884 阅读 · 0 评论 -
NeurIPS 2025 | 硬刚可灵1.5!阿里通义&清华等开源Wan-Move:指哪动哪的“神笔马良”
Wan-Move,一个用于视频生成中精确的运动控制的简单且可扩展的框架。通过点轨迹表示运动,并通过空间映射将其传输到潜在坐标,无需额外的运动编码器。通过隐空间特征复制将轨迹引导注入第一帧条件特征,在不改变架构的情况下实现了有效的运动控制。原创 2025-12-15 23:09:53 · 1145 阅读 · 0 评论 -
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
Lynx是一个高保真的个性化视频生成框架,通过两个轻量级适配器(ID-adapter和Ref-adapter)实现从单张图像中保留主体身份。ID-adapter通过交叉注意力注入面部识别特征,Ref-adapter整合VAE编码器的密集特征以增强细节保留。该框架采用时空帧打包和渐进式训练策略,在包含40个主体和20个提示的基准测试中展现出卓越的面部相似性和视频质量,同时保持自然的动作和语义对齐,超越了现有方法。Lynx为个性化视频生成提供了身份保留与生成质量的平衡解决方案。原创 2025-10-11 13:21:50 · 675 阅读 · 0 评论 -
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
摘要:本文提出VideoCanvas框架,统一解决任意时空视频补全任务,涵盖图像到视频、视频扩展、修补等场景。通过混合条件策略(空间零填充+时间RoPE插值),在冻结VAE的DiT模型上实现像素级控制,无需重新训练。构建VideoCanvasBench基准测试表明,该方法在保真度、动态性和一致性上优于现有技术,支持灵活的时间戳和空间区域控制,为可控视频生成提供了新范式。原创 2025-10-11 13:18:17 · 995 阅读 · 0 评论 -
通用具身智能要来了!卡内基梅隆&Meta发布效率之王MetaVLA:训练步数降3倍,GPU时间少76%
MetaVLA:高效多任务协同训练的视觉-语言-动作模型后训练框架 本文提出MetaVLA框架,针对当前视觉-语言-动作(VLA)模型存在的任务依赖性强、计算成本高和泛化能力弱等问题,通过元学习协同训练机制实现高效后训练。该框架采用基于注意力神经过程(ANP)的记忆增强模块Meta-Action-Reasoner,集成多样辅助任务提升泛化性,同时保持主干架构无关性。原创 2025-10-10 13:08:20 · 669 阅读 · 0 评论 -
AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!
AudioGen-Omni 首个统一多模态框架,支持视频同步生成多样化音频(通用音频、语音、歌曲)。该模型采用多模态扩散Transformer(MMDiT)架构,通过相位对齐位置注入(PAAPI)技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示,无需音素时长监督。模型在联合训练范式下,利用大规模多模态数据,支持灵活的条件输入(视频/文本/音频任意组合)。实验表明,其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平,8秒音频生成仅需1.91秒。原创 2025-08-05 21:36:11 · 1726 阅读 · 0 评论 -
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。原创 2025-04-11 23:26:45 · 1436 阅读 · 0 评论 -
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1400 阅读 · 0 评论 -
视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。原创 2024-10-10 08:52:18 · 2065 阅读 · 0 评论 -
小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。原创 2024-09-25 07:32:38 · 2876 阅读 · 0 评论 -
腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。原创 2024-09-20 09:16:37 · 982 阅读 · 0 评论 -
时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。原创 2024-09-12 12:31:42 · 1863 阅读 · 0 评论 -
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 1212 阅读 · 0 评论 -
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。原创 2024-09-10 09:09:59 · 2052 阅读 · 0 评论 -
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。原创 2024-09-10 08:26:45 · 1147 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 1979 阅读 · 0 评论 -
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。原创 2024-09-08 08:36:24 · 1657 阅读 · 0 评论 -
ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。原创 2024-09-07 21:29:52 · 1925 阅读 · 0 评论 -
风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。原创 2024-09-07 21:15:59 · 1631 阅读 · 0 评论 -
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。原创 2024-08-29 09:17:21 · 1191 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 825 阅读 · 0 评论 -
统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;原创 2024-08-28 09:07:14 · 1089 阅读 · 0 评论 -
像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。原创 2024-08-28 08:55:29 · 1161 阅读 · 0 评论 -
史上最强文生图模型?谷歌Imagen3内部详细评估资料解读
文章链接:https://arxiv.org/pdf/2408.07009Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。原创 2024-08-18 22:25:29 · 2575 阅读 · 0 评论 -
图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。原创 2024-08-12 20:15:52 · 2080 阅读 · 0 评论 -
视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接:https://arxiv.org/pdf/2408.04567 项目地址:https://xrvisionlabs.github.io/Sketch2Scene/亮点直击可控的、基于草图指导的2D isometric图像生成流程。一个基底图修补模型,通过在新数据集上进行逐步展开的去噪扩散训练。基于学习的组合式3D场景理解模块。一个程序化生成流程,用于使用上述场景理解模块获得的场景参数渲染互动3D场景。3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强原创 2024-08-12 20:12:07 · 1923 阅读 · 0 评论 -
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
论文链接:https://arxiv.org/pdf/2408.02629项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/git链接:https://github.com/SAIS-FUXI/VidGen引入了一个专门用于训练文本到视频模型的高质量视频数据集。提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。原创 2024-08-09 08:52:20 · 1496 阅读 · 0 评论 -
IPAdapter+再进化,可同时学习多个任务!Unity开源新思路:图像条件结合指令提示
文章链接:https://arxiv.org/pdf/2408.03209git链接:https://unity-research.github.io/IP-Adapter-Instruct.github.io/demo链接:https://huggingface.co/spaces/unity/IP-Adapter-Instruct提出IPAdapter-Instruct模型:结合自然图像条件与文本指令,灵活切换多种解释方式(如风格迁移、物体提取),简化任务处理。原创 2024-08-09 08:16:20 · 752 阅读 · 0 评论 -
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
假设目标分布是,将信号分割成多个子任务: ... 对于第t个条件概率拟合任务,采用网络θ来拟合它。对于任意两个任务t和k以及两个状态样本s和,如果将这种信号分解称为等变。可以观察到,语言分解是独立于位置的。对于任何token 或短语,它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致,因此表明语言分解表现出等变性。因此,采用单一模型来近似这些不同但相关的任务通常不会导致冲突,实际上,这对数据的整体建模非常有利。原创 2024-08-07 21:55:36 · 1261 阅读 · 0 评论 -
视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
文章链接:https://arxiv.org/pdf/2408.02657git链接:https://github.com/Alpha-VLLM/Lumina-mGPT通过多模态生成预训练的自回归Transformer,而不是从头训练,可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。基于mGPTs,引入了两种新的微调策略,FP-SFT和Omni-SFT,以在从弱到强的范式中充分释放它们的潜力,仅使用1000万高质量的文本-图像数据。原创 2024-08-07 21:35:30 · 1410 阅读 · 0 评论 -
ICML 2024 | 矛与盾的较量!北大提出提示无关数据防御保护算法PID
在文本编码器也进行微调的情况下,PID引发严重的噪声、低质量图像,这些图像与训练数据几乎没有语义相关性,表现为降低的FDS(0.303和0.288)、显著降低的IQS(-8.979和-14.764)、高的BRISQUE(28.927和50.112)。的情况,显示的图像来自候选模型中视觉效果最佳的模型。本文使用↑(数值增加)和↓(数值减少)表示更好的保护效果的方向,例如,较大的FID表示生成图像与训练图像的分布之间存在更大的距离,表明生成的图像未能很好地捕捉训练数据,从而保护了训练数据的隐私。原创 2024-08-05 07:48:33 · 1168 阅读 · 0 评论 -
超越DiffEdit、SDEdit等6大编辑模型!字节等提出人像服饰、卡通表情编辑新SOTA!
文章链接:https://arxiv.org/pdf/2407.20455一种数据生成技术,提供了具有更好身份和布局对齐的配对数据;一种多条件扩散模型,能够生成保留特征的结果,并在推理中提供准确的编辑mask指导;实现了最先进的人像编辑效果。现有的技术在进行人像编辑时面临挑战,难以保留主体特征(如身份)。本文提出了一种基于训练的方法,通过自动生成的配对数据来学习所需的编辑,同时确保保留未更改的主体特征。具体来说,本文设计了一个数据生成过程,以低成本创建合理的编辑训练对。原创 2024-08-05 07:39:38 · 1591 阅读 · 0 评论 -
颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
文章链接:https://arxiv.org/pdf/2407.16224git链接:https://humanaigc.github.io/outfit-anyone/顶尖逼真度:OutfitAnyone 方法为虚拟试穿设立了新的行业标准,提供行业领先的高质量结果。高鲁棒性:OutfitAnyone 可以支持任何人、任何服装、任何体型和任何场景的虚拟试穿。灵活控制:支持各种姿势和体型引导方法,包括 (openpose,SMP,densepose)。原创 2024-08-02 09:07:52 · 2443 阅读 · 0 评论 -
寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
论文链接:https://arxiv.org/pdf/2407.21705项目链接:https://ali-videoai.github.io/tora_video/亮点直击本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。原创 2024-08-02 09:03:06 · 1291 阅读 · 0 评论 -
ECCV`24 | 比DragDiffusion快100倍!RegionDrag:快·准·好的图像编辑方法!港大&牛津
文章链接:https://arxiv.org/pdf/2407.18247github链接:https://github.com/LuJingyi-John/RegionDrag引入了一种基于区域的图像编辑方法,以克服基于点拖拽方法的局限性,利用更丰富的输入上下文来更好地对齐编辑结果与用户的意图。通过采用无梯度的复制粘贴操作,基于区域的图像编辑比现有方法快得多(见上图1),在一次迭代中完成拖拽。原创 2024-08-01 08:50:52 · 1251 阅读 · 0 评论
分享