- 博客(62)
- 收藏
- 关注
原创 微软提出DiagD!10倍加速+高保真!自回归视频生成的闪电解码!
自回归Transformer模型在视频生成方面表现出色,但它们逐令牌的顺序解码过程成为主要瓶颈,特别是对于由数万个令牌表示的长视频而言。在本文中,我们提出了对角解码(DiagD),这是一种针对自回归预训练模型的免训练推理加速算法,它利用了视频中的时空相关性。我们的方法沿着时空令牌网格中的对角路径生成令牌,实现了每帧内的并行解码以及连续帧之间的部分重叠解码。所提出的算法具有通用性,适用于各种生成模型和任务,同时能够灵活控制推理速度和视觉质量之间的权衡。
2025-03-30 17:19:28
613
原创 清华联合百度提出AudCast!高保真音频驱动人体视频生成新框架!
尽管音频驱动视频生成技术最近取得了进展,但现有方法大多专注于驱动面部动作,导致头部和身体动态不协调。进一步而言,生成与给定音频精确唇形同步且具有细腻伴随语音手势的整体人体视频是理想的,但也具有挑战性。在这项工作中,我们提出了AudCast,这是一个采用级联扩散变压器(DiTs)范式的通用音频驱动人体视频生成框架,它基于参考图像和给定音频合成整体人体视频。1) 首先,我们提出了一种基于音频条件的整体人体DiT架构,以直接驱动任何人体的动作,并呈现出生动的手势动态。
2025-03-30 17:18:36
585
原创 快手联合港中文提出FullDiT!细粒度可控视频生成!
当前的视频生成基础模型主要专注于文本到视频的任务,对细粒度视频内容创作的控制能力有限。尽管基于适配器的方法(如ControlNet)能够通过最少的微调实现额外的控制,但在整合多个条件时会遇到挑战,包括:独立训练的适配器之间的分支冲突、导致计算成本增加的参数冗余,以及与全量微调相比表现欠佳。为应对这些挑战,我们引入了FullDiT,这是一个用于视频生成的统一基础模型,它通过统一的全注意力机制无缝整合多个条件。
2025-03-30 17:17:51
887
原创 中国人民大学提出Concat-ID!3D自注意力+跨视频配对,AI解锁多主体场景新高度!
我们提出了Concat-ID,这是一个用于身份保留视频生成的统一框架。Concat-ID采用变分自编码器(Variational Autoencoders)提取图像特征,并将其与视频隐变量沿序列维度拼接,仅利用3D自注意力机制,无需额外的模块。我们引入了一种新颖的跨视频配对策略和多阶段训练方案,以平衡身份一致性和面部可编辑性,同时增强视频的自然度。大量实验表明,Concat-ID在单身份和多身份生成方面优于现有方法,并且能够无缝扩展到多主体场景,包括虚拟试穿和背景可控生成。
2025-03-30 17:16:51
767
原创 巴伊兰大学提出SISO颠覆传统!免训练单图生成新范式:质量/保真度/背景三指标全面碾压SOTA!
主体驱动的文本条件图像生成和编辑将提示条件的易用性与使用个性化元素创建视觉内容时提供的卓越视觉控制相结合。从广告到数字艺术,它对于创意表达至关重要,但当可用的个性化元素图像较少时,仍然是一项具有挑战性的任务。图2. 用于图像生成的SISO工作流程。SISO通过基于预训练的身份度量IR和DINO进行迭代优化来生成图像。每次迭代时更新添加的低秩自适应(LoRA,Low-Rank Adaptation)参数,而模型的其余部分保持冻结。
2025-03-30 17:16:03
1014
原创 SaMam横空出世!全球首个Mamba风格迁移框架,线性复杂度+局部增强,双指标碾压SOTA!
风格迁移(ST)旨在捕捉图像风格以生成艺术图像,自开创性工作以来,它引起了越来越多的关注。随着现代深度学习技术的发展,如卷积神经网络、Transformer和扩散模型,风格迁移性能在过去几年中不断提高。我们认为这种改进部分归因于感受野的增加。首先,相对较大的感受野允许模型从更广泛的区域提取足够的图像模式,使其能够更好地捕捉风格模式。其次,有了更大的感受野,模型能够利用内容图像中的更多像素来促进锚点像素的风格迁移。图1. 不同方法在推理时间 (毫秒)和ArtFID之间的权衡。
2025-03-30 17:14:26
771
原创 微软提出DiagD!10倍加速+高保真!自回归视频生成的闪电解码!
自回归Transformer模型在视频生成方面表现出色,但它们逐令牌的顺序解码过程成为主要瓶颈,特别是对于由数万个令牌表示的长视频而言。在本文中,我们提出了对角解码(DiagD),这是一种针对自回归预训练模型的免训练推理加速算法,它利用了视频中的时空相关性。我们的方法沿着时空令牌网格中的对角路径生成令牌,实现了每帧内的并行解码以及连续帧之间的部分重叠解码。所提出的算法具有通用性,适用于各种生成模型和任务,同时能够灵活控制推理速度和视觉质量之间的权衡。
2025-03-30 17:13:04
968
原创 复旦联合字节提出BlockDance!DiT加速新方法!保证生成质量同时加速50%!
扩散模型已展现出令人印象深刻的生成能力,特别是近期借助变压器(Transformer)架构的进展,提升了视觉和艺术质量。然而,扩散变压器模型(Diffusion Transformers,DiTs)由于迭代去噪过程,仍然面临推理速度慢的挑战。为解决这一问题,我们提出了BlockDance,这是一种无需训练的方法,通过探索相邻时间步的特征相似性来加速DiTs。
2025-03-30 17:12:16
960
原创 商汤提出Shining Yourself!首个高保真饰品虚拟试戴新方法!
虽然基于扩散模型的服装和鞋子虚拟试戴已经受到关注,但手镯、戒指、耳环和项链等饰品的虚拟试戴在很大程度上仍未得到探索。由于大多数饰品中存在复杂的微小图案和重复的几何子结构,在饰品和模特之间存在较大的姿态和尺度变化时,更难保证身份和外观的一致性。本文提出了饰品虚拟试戴任务,并提出了一种改进饰品虚拟试戴的几何和外观保留的方法。具体来说,我们在去噪过程的迭代方案中估计一个准确的佩戴掩码,以改善饰品和模特之间的对齐。为了保留结构细节,我们进一步对注意力层进行正则化,以隐式方式将参考饰品掩码映射到佩戴掩码。
2025-03-23 21:32:05
843
原创 Adobe研究中心提出VEGGIE!指令式视频编辑的全能王者!
近期的视频扩散模型推动了视频编辑的发展,但在统一框架内处理指令式编辑和多样化任务(如添加、删除、更改)仍然具有挑战性。在本文中,我们介绍了VEGGIE,即基于指令基础生成的视频编辑器,这是一个简单的端到端框架,可基于不同的用户指令统一进行视频概念编辑、定位和推理。具体而言,给定一个视频和文本查询,VEGGIE首先利用多模态大语言模型(MLLM)解读用户指令中的意图,并将其与视频上下文关联起来,生成针对特定帧的基础任务查询以获得像素空间响应。然后,扩散模型根据这些计划生成符合用户意图的编辑后视频。
2025-03-23 21:30:11
798
原创 字节提出InfiniteYou!基于DiT的灵活且高保真IP 保持图像生成新框架!
实现灵活且高保真的保留身份特征的图像生成仍然极具挑战性,特别是对于像FLUX这样的先进扩散变压器(Diffusion Transformers,DiTs)而言。我们推出了InfiniteYou(InfU),它是最早利用DiTs完成此任务的强大框架之一。InfU解决了现有方法的重大问题,如身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果较低等。InfU的核心是InfuseNet,这一组件通过残差连接将身份特征注入到DiT基础模型中,在保持生成能力的同时提高了身份相似度。
2025-03-23 21:29:27
935
原创 复旦联合微软提出MagicMotion!Motion可控图生视频新框架!
近年来,视频生成技术取得了显著进展,在视觉质量和时间连贯性方面有了显著提升。在此基础上,轨迹可控的视频生成技术应运而生,它可以通过明确定义的空间路径实现对物体运动的精确控制。然而,现有方法在处理复杂物体运动和多物体运动控制时存在困难,导致轨迹跟踪不精确、物体一致性差以及视觉质量受损。此外,这些方法仅支持单一格式的轨迹控制,限制了它们在不同场景中的适用性。另外,目前还没有专门针对轨迹可控视频生成的公开可用数据集或基准,这阻碍了模型的稳健训练和系统评估。
2025-03-23 21:28:33
986
原创 巴黎综合理工学院提出Di[M]O!掩码扩散模型的一步生成革命!
掩码扩散模型(MDMs)已成为一种强大的生成式建模技术。尽管它们取得了显著的成果,但通常存在多步推理速度慢的问题。在本文中,我们提出了Di[M]O,这是一种将掩码扩散模型蒸馏为一步生成器的新方法。Di 解决了两个关键挑战:(1)使用中间步骤信息进行一步生成的难处理性,我们通过令牌级分布匹配来解决这个问题,该方法借助辅助模型,通过“策略内框架”优化模型输出的对数几率;(2)初始分布缺乏熵,我们通过一种令牌初始化策略来解决这个问题,该策略在保持与教师训练分布相似性的同时注入随机性。
2025-03-23 21:27:16
949
原创 加利福尼亚大学提出TULIP!视觉-语言模型的新王者!AI性能全面碾压CLIP!
尽管像CLIP和SigLIP这样的图像 - 文本对比模型最近取得了成功,但这些模型在以视觉为中心、需要高保真图像理解的任务中往往表现不佳,例如计数、深度估计和细粒度目标识别。这些模型通过执行语言对齐,往往更优先考虑高级语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,专注于视觉的模型在处理视觉信息方面表现出色,但难以理解语言,限制了它们在语言驱动任务中的灵活性。在这项工作中,我们推出了TULIP,这是一种开源的、可直接替代现有类CLIP模型的方案。
2025-03-21 21:37:30
641
原创 北大提出MMGDreamer!可控3D场景生成新SOTA!
可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用,生成的场景应在几何方面表现出高度的真实感和可控性。场景图提供了一种合适的数据表示方式,便于这些应用的实现。然而,当前基于图的场景生成方法局限于基于文本的输入,对灵活的用户输入适应性不足,阻碍了对物体几何形状的精确控制能力。为解决这一问题,我们提出了MMGDreamer,这是一种用于场景生成的双分支扩散模型,它结合了一种新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态,节点之间存在可选关系。
2025-03-21 21:36:36
821
原创 FLUXFLOW横空出世!视频生成时间增强新范式:无需改架构,一键提升连贯性+多样性!
追求逼真的视频生成面临着一个关键困境:虽然空间合成(例如,StableDiffusion系列、基于自回归(AR)的方法)已经实现了显著的保真度,但确保时间质量仍然是一个难以实现的目标。现代视频生成器,无论是扩散模型还是自回归模型,经常生成存在时间伪影的序列,例如闪烁的纹理、不连续的运动轨迹或重复的动态,这暴露了它们无法稳健地建模时间关系的问题(见图1)。图2. 使用VBench指标对VideoCrafter2和FLUXFLOW在时间质量(上)以及逐帧和整体质量(下)方面进行的比较。
2025-03-21 21:35:42
646
原创 浙大提出MotionStreamer:连续因果潜在空间+自回归模型,流式运动生成误差直降80%!
流式运动生成旨在逐步合成人体运动,同时动态适应在线文本输入并保持语义连贯性。以流式方式生成逼真且多样的人体运动对于各种实时应用(如视频游戏、动画和机器人技术)至关重要。流式运动生成由于两个基本要求而面临重大挑战。首先,该框架必须在保持在线响应的同时逐步处理顺序到达的文本输入。其次,模型应能够通过有效地将历史信息与传入的文本条件相结合,连续合成表现出上下文一致性的运动序列,确保渐进式文本语义与跨长时间轴的运动学连续性之间的对齐。图2. 运动流式生成器(MotionStreamer)概述。
2025-03-21 21:34:48
899
原创 Adobe提出Visual Persona!全能视觉人物形象定制基础模型!
我们提出了视觉人物形象(Visual Persona)模型,这是一个用于文本到图像全身人体定制的基础模型。给定一张自然场景中的单人图像,该模型能够生成由文本描述引导的多样化个人图像。与以往仅专注于保留面部特征的方法不同,我们的方法能够捕捉详细的全身外观,并与文本描述的身体结构和场景变化相匹配。训练这个模型需要大规模的配对人体数据,即每个个体有多个具有一致全身特征的图像,但这类数据极难获取。
2025-03-21 21:33:59
784
原创 科大讯飞EditID横空出世!全球首个DiT免训练框架,定制身份可编辑+一致性双SOTA,IBench评测登顶!
身份定制生成作为一种个性化的文本到图像生成类型,将身份与提示词相结合,以创建特定的外观。它在故事生成和人物创作等场景中具有重要的应用价值,并且是当今主要的文本到图像创意制作平台的核心卖点之一。本文提出了EditID,一种用于文本到图像生成的免训练身份定制方法。我们是首个在DiT架构内探索增强可编辑性的团队,在长提示下实现了最先进的性能。以PuLID模型为例,我们将其解构为字符特征分支和图像生成主分支,并进一步将字符特征分支解耦为三个主要模块:特征提取、特征融合和身份集成。
2025-03-21 21:33:00
853
原创 百川DualToken横空出世!双码本协同颠覆视觉框架,理解+生成双SOTA,MLLM性能飙升!
在大语言模型(LLM)的自回归范式内统一视觉理解和生成已成为当前的研究热点,催生了如CM3leon、变色龙(Chameleon)、鸸鹋3(Emu3)和VILA - U等代表性工作。为了实现多模态自回归生成,这些统一模型需要一个视觉分词器(visual tokenizer)来离散化视觉输入,以及一个相应的逆分词器(detokenizer)将令牌映射回像素空间。图1. 与最先进的视觉编码器的比较。
2025-03-21 21:32:15
574
原创 国科大提出PC-Talk!超强唇音对齐和情感控制的Talking Face新方法!
近年来,音频驱动的会说话人脸生成技术在唇形同步方面取得了巨大进展。然而,当前的方法往往缺乏对说话风格和情感表达等面部动画的足够控制,导致输出结果单一。在本文中,我们专注于改善两个关键因素:唇音对齐和情感控制,以提高会说话视频的多样性和用户友好性。唇音对齐控制侧重于说话风格和唇动幅度等元素,而情感控制则侧重于生成逼真的情感表达,并允许在强度等多个属性上进行修改。为了实现对面部动画的精确控制,我们提出了一个新颖的框架 PC-Talk,它通过隐式关键点变形实现唇音对齐和情感控制。
2025-03-21 21:31:16
1074
原创 Stability AI提出SEVA!给定输入视图和目标相机即可创建场景新视图!
我们提出了稳定虚拟相机(STABLE VIRTUAL CAMERA,简称SEVA),这是一种通用的扩散模型,给定任意数量的输入视图和目标相机,它可以创建场景的新视图。现有方法在生成大视角变化或时间上平滑的样本时存在困难,并且依赖于特定的任务配置。我们的方法通过简单的模型设计、优化的训练方案和灵活的采样策略克服了这些限制,这些策略在测试时可以跨视图合成任务进行泛化。因此,我们的样本在不需要额外的基于表示的蒸馏的情况下保持了高度一致性,从而简化了实际场景中的视图合成。
2025-03-21 21:30:29
961
原创 中山大学提出DreamLayer!层间交互+无缝融合,AI解锁图像编辑新维度!
近年来,使用扩散模型进行文本驱动的图像生成受到了广泛关注。为了实现更灵活的图像操作和编辑,近期的研究已从单图像生成扩展到透明图层生成和多层合成。然而,现有方法往往未能对多层结构进行全面探索,导致层间交互不一致,如遮挡关系、空间布局和阴影效果等。在本文中,我们提出了梦境图层(Dream-Layer)这一新颖框架,通过显式建模透明前景和背景图层之间的关系,实现了连贯的文本驱动多层图像生成。
2025-03-19 18:51:26
951
原创 浙江大学提出DreamRenderer!多实例精准控制的图像生成神器!
图像条件生成方法,如深度和Canny条件方法,已在精确图像合成方面展现出卓越能力。然而,现有模型仍难以准确控制多个实例(或区域)的内容。即使是像FLUX和3DIS这样的先进模型也面临挑战,例如实例之间的属性泄漏,这限制了用户的控制能力。为解决这些问题,我们引入了DreamRenderer,这是一种基于FLUX模型的无训练方法。DreamRenderer使用户能够通过边界框或掩码控制每个实例的内容,同时确保整体视觉和谐。
2025-03-19 18:50:36
897
原创 清华大学提出Personalize Anything:免训练DiT框架颠覆性突破!零样本重建+多任务编辑,身份保留全面SOTA!
个性化图像生成旨在合成用户指定概念的图像,同时实现灵活编辑。文本到图像扩散模型的出现彻底改变了这一领域,使其在广告制作等领域得到应用。图2. DiT(右)中的简单标记替换通过其位置解耦表示实现了高保真度的主体重建,而U-Net的卷积纠缠(左)导致边缘模糊和伪影。本文揭示了在扩散变压器(DiTs)中,简单的令牌替换能够实现高保真的主体重建,这得益于 DiTs 中的位置解耦表示。语义特征和位置的解耦使得可以替换纯语义令牌,避免了位置干扰。
2025-03-19 18:49:46
659
原创 苹果提出UniVG:首个统一扩散模型!单一权重覆盖7大图像生成任务,性能竟超专项模型!
扩散模型,特别是为文本到图像生成开发的模型,已经取得了重大进展。像Stable Diffusion、DALL - E和Imagen这样的模型已经展示了根据文本提示生成高质量、逼真图像的能力。同时,各种努力将扩散模型扩展到专门任务,产生了如InstructPix2Pix、ControlNet和InstandID等模型。然而,特定任务模型数量的增加导致了有效管理这些系统和优化计算资源方面的挑战。一个更具可扩展性的解决方案是一个单一的、统一的模型,能够处理多种图像生成任务,从而简化开发和部署。
2025-03-19 18:48:28
532
原创 北大联合港中文提出BlobCtrl!高保真元素级生成和编辑统一新框架!
元素级视觉操作在数字内容创作中至关重要,但当前基于扩散模型的方法缺乏传统工具的精度和灵活性。在这项工作中,我们引入了,这是一个使用基于概率团块(blob)表示法来统一元素级生成和编辑的框架。通过将团块用作视觉基元,我们的方法有效地解耦并表示了空间位置、语义内容和身份信息,从而实现了精确的元素级操作。我们的主要贡献包括:1)具有分层特征融合的双分支扩散架构,用于实现前景 - 背景的无缝集成;2)采用定制数据增强和得分函数的自监督训练范式;3)可控的丢弃策略,以平衡保真度和多样性。
2025-03-19 18:47:28
902
原创 谷歌提出新方法UniFluid!视觉生成和理解统一自回归框架!
我们提出了UniFluid,这是一个统一的自回归框架,用于利用连续视觉标记进行联合视觉生成和理解。我们的统一自回归架构处理多模态图像和文本输入,为文本生成离散标记,为图像生成连续标记。我们发现,虽然图像生成和理解任务之间存在内在的权衡,但经过精心调整的训练方案可以使它们相互促进。通过选择合适的损失平衡权重,统一模型在这两个任务上取得的结果与单任务基线相当或更优。此外,我们证明了在训练过程中采用更强的预训练大语言模型(LLM)和随机顺序生成对于在这个统一框架内实现高保真图像生成至关重要。
2025-03-19 18:46:00
1014
原创 北京大学提出TA-V2A!视频到音频生成的语义革命!
随着人工智能生成内容(AIGC)的不断发展,视频到音频(V2A)生成已成为一个关键领域,在多媒体编辑、增强现实和自动化内容创作等方面具有广阔的应用前景。虽然Transformer和扩散模型推动了音频生成的发展,但从视频中提取精确语义信息仍然是一个重大挑战,因为当前模型往往仅依赖基于帧的特征,从而丢失了序列上下文信息。为了解决这一问题,我们提出了TA-V2A方法,该方法整合了语言、音频和视频特征,以改善潜在空间中的语义表示。通过引入大语言模型来增强视频理解能力,我们的方法利用文本引导来丰富语义表达。
2025-03-19 18:44:47
665
原创 利用多模态模型赋能,SONY团队完成音乐到音乐视频描述生成大突破!
由于音乐和视频模态之间的内在差异,音乐到音乐视频生成是一项具有挑战性的任务。强大的文本到视频扩散模型的出现,通过先解决音乐到音乐视频(MV)描述任务,然后利用这些模型进行视频生成,为音乐视频生成开辟了一条有前景的途径。在本研究中,我们专注于音乐视频描述生成任务,并提出了一个涵盖训练数据构建和多模态模型微调的综合流程。我们基于Music4All数据集新构建的音乐到音乐视频描述数据集,对现有的预训练多模态模型进行微调,该数据集整合了音乐和视觉信息。
2025-03-19 18:44:03
548
原创 浙大联合上海AI Lab提出NAR!邻域自回归建模视觉生成!比DiT
视觉自回归模型通常遵循光栅顺序的“下一标记预测”范式,该范式忽略了视觉内容固有的空间和时间局部性。具体而言,与距离较远的视觉标记相比,视觉标记与其在空间或时间上相邻的标记之间的相关性明显更强。在本文中,我们提出了邻域自回归建模(Neighboring Autoregressive Modeling,NAR),这是一种新颖的范式,它将自回归视觉生成表述为一个渐进式的外部绘制过程,遵循从近到远的“下一邻域预测”机制。
2025-03-18 22:23:12
862
原创 字节提出FlowTok!高效文生图新框架!比PixArt 快3倍!
弥合不同模态之间的差距是跨模态生成的核心。传统方法将文本模态视为一种条件信号,逐步引导从高斯噪声到目标图像模态的去噪过程,而我们探索了一种更简单的范式——通过流匹配在文本和图像模态之间直接转换。这需要将两种模态投影到一个共享的潜在空间中,但由于它们本质上的不同表示方式,这带来了重大挑战:文本具有高度语义性,被编码为一维标记,而图像在空间上存在冗余,以二维潜在嵌入的形式表示。
2025-03-18 22:22:25
790
原创 微软提出I2V3D!3D引导的可控图像生成视频新框架!
我们提出了I2V3D,这是一个新颖的框架,利用3D几何引导和先进生成模型的优势,将静态图像精确地 动画化为动态视频。我们的方法将计算机图形流水线的精确性(能够精确控制相机运动、物体旋转和角色动画等元素)与生成式 的视觉保真度相结合,从粗略渲染的输入中生成高质量的视频。为了支持从任意初始点开始的动画和扩展序列,我们采用了由 几何引导的两阶段生成过程:1) 引导的关键帧生成,其中定制的图像扩散模型优化渲染的关键帧,以确保一致性和质量;
2025-03-17 22:14:46
629
原创 中山大学提出ConsisLoRA:革新风格迁移技术,解决内容一致性与风格对齐难题!
扩散模型已成为文本到图像合成的强大范式,在可控生成任务中取得了重大突破,包括个性化生成、图像编辑和图像风格化。尽管取得了这些进展,但由于风格本质上的复杂性和不确定性,风格迁移仍然具有挑战性。风格迁移的目标是将内容图像转换为与风格参考图像的期望风格相匹配。在本研究中,我们提出了ConsisLoRA,这是一种风格迁移方法,旨在解决现有基于低秩自适应(LoRA)方法面临的关键挑战,如内容不一致、风格不对齐和内容泄漏等问题。通过优化LoRA权重以预测原始图像而非噪声,我们的方法显著提高了风格和内容的一致性。
2025-03-17 22:13:57
746
原创 浙江大学提出V²Edit!视频与3D场景编辑的免训练革命!
本文介绍了 编辑,这是一种用于指令引导的视频和3D场景编辑的新型免训练框架。为解决平衡原始内容保留与编辑任务完成这一关键挑战,我们的方法采用了一种渐进策略,将复杂的编辑任务分解为一系列更简单的子任务。每个子任务通过三个关键的协同机制进行控制:初始噪声、每个去噪步骤添加的噪声以及文本提示与视频内容之间的交叉注意力图。这确保了在有效应用所需编辑的同时,能稳健地保留原始视频元素。
2025-03-17 22:11:11
628
原创 微软提出I2V3D!3D引导的可控图像生成视频新框架!
我们提出了I2V3D,这是一个新颖的框架,利用3D几何引导和先进生成模型的优势,将静态图像精确地 动画化为动态视频。我们的方法将计算机图形流水线的精确性(能够精确控制相机运动、物体旋转和角色动画等元素)与生成式 的视觉保真度相结合,从粗略渲染的输入中生成高质量的视频。为了支持从任意初始点开始的动画和扩展序列,我们采用了由 几何引导的两阶段生成过程:1) 引导的关键帧生成,其中定制的图像扩散模型优化渲染的关键帧,以确保一致性和质量;
2025-03-17 22:10:06
1257
原创 港中文联合字节提出CameraCtrl II!Camera-Control视频生成模型实现大规模动态场景!
本文介绍了相机控制二代(CAMERACTRL II),这是一个通过相机控制的视频扩散模型实现大规模动态场景探索的框架。先前基于相机条件的视频生成模型在生成相机大幅移动的视频时,存在视频动态性减弱和视角范围有限的问题。我们采用一种逐步扩展动态场景生成的方法——首先增强单个视频片段内的动态内容,然后将这种能力扩展到跨广泛视角范围的无缝探索。具体而言,我们构建了一个具有大量动态且带有相机参数注释的数据集用于训练,同时设计了一个轻量级的相机注入模块和训练方案以保留预训练模型的动态性。
2025-03-17 22:09:15
912
原创 超详细!字节公开Seedream 2.0文生图技术报告!
为解决这些局限性,我们推出了Seedream 2.0,这是一款原生中英双语图像生成基础模型,在多个维度表现出色,能够熟练处理中文和英文文本提示,支持双语图像生成和文本渲染。我们开发了一个强大的数据系统以促进知识整合,以及一个兼顾图像描述准确性和丰富性的字幕系统。特别地,Seedream集成了自研的双语大语言模型(LLM)作为文本编码器,使其能够直接从海量数据中学习原生知识。这使得它能够生成具有准确文化内涵和美学表达的高保真图像,无论是用中文还是英文描述。
2025-03-16 16:47:20
720
原创 浙大联合上海AI Lab提出Astrea!基于MoE的MLLM新框架!
基于专家混合(Mixture-of-Experts,MoE)架构的视觉语言模型(Vision-Language Models,VLMs)已成为多模态理解领域的关键范式,为整合视觉和语言信息提供了强大的框架。然而,任务的复杂性和多样性不断增加,在协调异构视觉专家之间的负载平衡方面带来了重大挑战,因为优化一个专家的性能往往会损害其他专家的能力。为了解决任务异构性和专家负载不平衡的问题,我们提出了阿斯特蕾亚(Astrea),这是一种基于渐进式预对齐的新型多专家协作视觉语言模型架构。
2025-03-16 16:46:35
707
原创 视频扩散模型迎来革新!NUS提出TPDiff框架:训练成本减半,推理速度飙升!
随着扩散模型的发展,视频生成取得了重大突破。最先进的视频扩散模型不仅使个人能够进行艺术创作,还在机器人技术和虚拟现实等其他领域展现出巨大潜力。尽管视频扩散模型性能强大,但对空间和时间分布进行联合建模的复杂性使得它们的训练成本高得令人望而却步。此外,随着对长视频需求的增加,训练和推理成本也将相应持续增加。图1. 我们方法的概述。我们的方法采用渐进帧率,如图(a)和(b)所示,仅在最后阶段使用全帧率,从而在训练和推理中都大大优化了计算效率,如图(c)所示。
2025-03-16 16:45:52
947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人