- 博客(275)
- 收藏
- 关注
原创 业界首款多实例智能线稿上色系统来啦!港科大提出MagicColor:零基础也能产出专业级彩色漫画!
多实例线稿上色的效率与准确性:传统的手工上色方法需要艺术家逐个实例上色,效率低下且容易出错。训练数据不足:现有的生成方法由于缺乏多实例配对数据,难以有效解决多实例上色任务。实例级控制与颜色一致性:现有方法在实例级控制上表现不佳,容易导致颜色失真和细节丢失,且难以保持颜色一致性。
2025-03-29 23:21:08
695
原创 单图秒变好莱坞级运镜!MagicMotion实现多物体丝滑运动,复杂场景帧级精准对齐(复旦&微软)
复杂对象运动和多对象运动控制的困难:现有方法在处理复杂对象运动和多对象运动控制时,存在轨迹遵循不精确、对象一致性差和视觉质量下降的问题。单一轨迹控制格式的限制:现有方法仅支持单一格式的轨迹控制,限制了其在不同场景中的适用性。缺乏专门的数据集和基准:目前没有公开的大规模数据集或基准专门用于轨迹可控视频生成,阻碍了鲁棒训练和系统评估。本文的工作主要集中在轨迹可控的视频生成上。给定输入图像 和多个轨迹图 ,模型可以生成符合提供轨迹的视频 ,其中 表示生成视频的长度。本节首先详细解释本文的模型架构。
2025-03-29 23:17:34
902
原创 FLUX秒变高玩!DreamRenderer无需训练一键解决AI绘图『多物乱窜』难题(浙大&哈佛)
多实例内容控制不准确:现有图像生成模型(如FLUX和3DIS)在控制多个实例(或区域)的内容时存在困难,容易出现属性泄漏问题,导致用户无法精确控制每个实例的视觉属性。文本嵌入与视觉信息绑定不准确:现有的文本到图像模型(如T5文本编码器)仅基于文本数据进行预训练,缺乏视觉信息,导致在多实例控制场景下,文本嵌入容易与错误的视觉属性绑定。图像质量与控制的平衡:在联合注意力机制中,过度限制图像标记的注意力范围会导致图像质量下降,而过于宽松的控制则无法保证每个实例的视觉属性准确生成。下图 2 展示了的概览。
2025-03-25 23:04:35
843
原创 性能狂飙89%! 新加坡国立开源Conceptrol:让个性化图像生成更懂你的文字提示
个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。
2025-03-25 23:01:22
861
原创 让创意起飞!用户可控的电影级图像到视频生成方法!港中文&Adobe发布MotionCanvas
如何在图像到视频生成系统中实现直观的电影镜头设计。如何有效捕捉用户在运动设计上的意图,包括相机运动和场景空间对象运动。如何表示运动信息,使其能够被视频扩散模型有效利用,以合成图像动画。
2025-03-17 20:52:17
648
原创 通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)
理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中数据维度的演进。
2025-03-17 20:45:27
1233
原创 人形机器人全能运动新突破:HUGWBC实现多模态步态精细调控与实时操控(上交&上海AI lab)
当前的人形机器人行走系统单一、被动,缺乏可扩展性,难以实现如人类般的多样化运动(如奔跑、跳跃、单脚跳等),也无法对步态参数(步频、步幅、脚摆高度等)进行细粒度调整。此外,现有方法在执行运动任务时,缺乏对上半身控制的实时干预能力,限制了机器人在复杂任务中的适应性和灵活性。
2025-03-13 15:40:17
828
原创 即插即用!腾讯&港中文发布影视后期黑科技!VideoPainter:视频编辑修复8项SOTA!
生成完全遮挡目标:现有方法在处理完全遮挡的目标时存在困难。背景保留与前景生成的平衡:现有方法难以在保留背景的同时生成前景。长视频中的ID一致性:现有方法在长视频中难以保持目标ID的一致性。
2025-03-13 15:36:48
507
原创 他们吃的那么香,我都看饿了!港大&字节发布领先商用级图像视频生成模型Goku有点东西
现有的图像与视频生成模型在质量、一致性和计算效率方面仍存在不足。需要构建大规模、高质量的数据集,以支持高性能生成模型的训练。现有的生成架构未能充分统一图像和视频的表示,影响跨模态生成效果。训练大规模生成模型的计算成本高,需优化并行计算与存储机制。
2025-03-11 05:45:43
671
原创 破解LoRA融合密码!无需训练夺得SOTA!K-LoRA巧用Top-K策略,让风格与主体完美融合
风格与内容的同时保留:现有方法在融合不同LoRA(Low-Rank Adaptation)时,难以同时有效保留原始图像的主体内容和风格细节。额外训练需求:现有方法通常需要手动调整超参数或进行额外的训练,增加了复杂性和计算成本。
2025-03-11 05:41:55
991
原创 颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。
2025-03-10 07:40:44
702
原创 CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。
2025-03-10 07:37:18
863
原创 自回归模型迎来全能选手!FlexVAR一模型通吃图像生成/修补,推理速度与质量自由调节
本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式,它通过真实值(ground-truth)预测而非残差预测来实现自回归学习,从而能够在任何步骤独立生成合理的图像。在本文的方法中:(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练,去除了残差预测。
2025-03-06 06:55:15
1286
原创 Hunyuan图生视频发布日期公布:北京时间3月6日16:00
今日,Hunyuan发布了图生视频的发布日期:北京时间3月6日16:00。Hunyuan I2V 是腾讯(Tencent)推出的一款先进的图像到视频生成模型(Image-to-Video Generation Model)。它能够将静态图像转换为动态视频,具有广泛的应用场景,如内容创作、广告制作、影视特效等。二月底,Hunyuan在 Twitter 上发布了一个到的链接,该链接允许首尾帧的 I2V。他们可能只是简单地将这个解决方案集成到本地的Hunyuan中,并且希望对它进行显著的优化。
2025-03-06 06:46:32
393
原创 大语言模型都有哪些特质?区分度达97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
区分不同LLM生成的文本:研究旨在识别和区分不同大型语言模型(LLM)生成的文本,揭示各模型的独特输出模式。理解LLM的独特行为:通过分析LLM生成的文本,探讨这些模型的独特行为及其在语义层面的表现。
2025-03-05 22:41:51
630
原创 一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。
2025-03-05 22:36:52
665
原创 CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出“时空大脑“
多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。
2025-03-04 07:52:48
920
原创 告别800秒魔咒!硬件级STA革新视频DiT注意力,让HunyuanVideo效率提升3.5倍!
视频链接:https://www.youtube.com/watch?论文链接:https://arxiv.org/pdf/2502.04507Git链接:https://github.com/hao-ai-lab/FastVideo识别并量化了最先进的视频 DiT 中的 3D 局部性和头部 specialization,揭示了完整 3D 注意力中的大量冗余。引入了,一种基于分块的滑动窗口注意力机制。优化内核与 FlashAttention 3 相比实现了最小的开销,MFU 达到 58.79%。
2025-03-03 07:50:36
973
原创 CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
现有生成扩散模型在图像风格和语义理解方面虽然有进展,但在将参考图像的视觉特征转移到生成图像中时,使用即插即用注意力特征的方法存在局限性。
2025-03-03 07:42:19
1044
原创 开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型
身份失真:现有方法在动画生成过程中难以保持人物身份的稳定性,导致身份信息泄露或扭曲。背景不稳定:动画生成时背景容易出现抖动或不一致的现象。面部表情不真实:特别是在仅头部动画的场景中,面部表情缺乏真实感。全身动画的挑战:当动画扩展到全身时,现有方法容易产生视觉伪影或不自然的动作。身份与运动融合的困难:现有方法难以在保持身份一致性的同时,实现细腻的表情和动作生成。给定输入视频序列和参考肖像图像,从视频中提取表情感知的面部标志点,这些标志点作为运动描述符,用于将表情传递到肖像上。
2025-03-02 20:26:36
1220
原创 MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。
2025-03-02 09:38:43
1968
原创 AI长视频生成终现“免费午餐“!RIFLEx颠覆性发现:调控频率就能突破时长魔咒
生成长视频的挑战:现有的视频生成模型在生成长视频时面临时间一致性差的问题,容易出现时间重复或运动减速的现象。长度外推技术的不足:现有的长度外推方法在应用于视频生成时表现不佳,导致时间重复和运动减速。
2025-03-01 08:24:53
940
原创 ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级
多粒度视频编辑的挑战,特别是文本到区域控制的语义不匹配和扩散模型内部的特征耦合问题。
2025-03-01 08:16:42
1379
原创 MagicArticulate: 超48K海量数据革新3D动画,自回归Transformer驱动关节智能生成!
随着3D内容创作的快速增长,自动将静态3D模型转换为支持真实动画的可关节化版本的需求日益增加。然而,传统方法严重依赖人工标注,既耗时又费力。此外,缺乏大规模的基准数据集也阻碍了基于学习的解决方案的发展。
2025-02-25 22:43:41
1008
原创 直击痛点,新一代身份保持视频生成解决方案!阿里等提出FantasyID:多视角与3D融合!
面部动态表现不足:现有的身份保持文本到视频生成(IPT2V)方法在生成视频时,难以在保持身份一致性的同时,实现满意的面部动态表现。“复制-粘贴”问题:使用单视角参考面部图像进行模型调优时,模型可能会简单地复制参考面部图像,导致生成视频中的面部表情和头部姿势缺乏多样性。层次化控制信号的敏感性:扩散Transformer(DiT)的层次化结构导致不同层对控制信号的敏感性不同,需要专门的调节策略来平衡身份保持和时间一致性。
2025-02-25 22:27:23
1191
原创 开放版Wanx 2.1发布在即:超越Sora,重新定义AI驱动视频生成
她的手臂张开,身体向后倾斜,展现了她的技巧和优雅」。为了最大限度地提升视觉生成质量,Wanx 2.1背后的研究团队在多个技术领域取得了显著进展:首先,通过利用专有的VAE(变分自编码器)和DiT(去噪扩散Transformer)框架,Wanx 2.1在增强时间和空间关系方面表现出色,从而在处理涉及复杂运动场景和物理规则时实现了更高的视觉真实感。此外,Wanx 2.1还实现了一个突破性里程碑,成为首个支持中英文字幕特效的视频生成模型,满足了广告设计和短视频制作等行业多样化的创意需求。
2025-02-24 07:29:42
623
原创 从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)
现有 DiT 生成的视频模型需要大规模参数和大量计算资源,导致计算成本高昂。生成高质量视频需要高分辨率和大量去噪步骤,进一步增加计算负担。现有的两阶段方法仍然依赖从高斯噪声重建高分辨率视频,计算效率低下。
2025-02-17 22:43:16
1062
1
原创 高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成
高质量多视角数据获取成本高:传统方法需要高质量的多视角工作室数据来创建逼真的人体表示,但这些数据获取成本高,限制了可扩展性。野外数据缺乏3D或多视角表示:大规模、非结构化的野外人体图像和视频虽然丰富,但缺乏真实的3D或多视角表示。多视角生成模型的3D一致性问题:现有方法在生成多视角图像时,难以保证3D一致性,且现有评估指标无法准确衡量3D一致性。
2025-02-17 22:37:01
980
原创 多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。
2025-02-16 17:09:27
1460
原创 ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务
论文地址:https://arxiv.org/pdf/2409.04005项目主页:https://360cvgroup.github.io/Qihoo-T2X代码仓库:https://github.com/360CVGroup/Qihoo-T2X:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲。
2025-02-16 17:06:36
762
原创 只需一步!上交&哈佛提出FluxSR:首个基于12B+大模型的单步扩散真实世界超分模型
多步扩散模型的计算成本高,限制了其在真实世界图像超分辨率(Real-ISR)任务中的应用。现有的单步扩散方法受教师模型性能限制,低质量的教师模型会导致生成的图像出现伪影。大模型的训练成本和内存消耗高,尤其在蒸馏过程中,使用额外教师模型会显著增加计算负担。
2025-02-09 21:56:55
786
原创 1.8秒完成90帧视频重建,相比加速1000 倍!颜水成团队提出NutWorld:渲染速度可达450FPS
现有方法在表示随意拍摄的单目视频时,因缺乏时间一致性和显式3D结构,难以处理复杂运动、遮挡和几何一致性。如何高效地以空间和时间一致的方式表示单目视频,成为亟待解决的问题。
2025-02-08 23:57:53
791
原创 仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?(卡内基梅隆&港大等)
现有的扩散模型通常使用变分自编码器(VAE)作为tokenizer,但VAE的变分约束可能限制了重建质量,影响生成效果。此外,现有的自动编码器(AE)虽然能提供更高保真度的重建,但其潜在空间可能过于混乱,不利于扩散模型的训练和采样。因此,如何构建一个既能保持高重建质量,又能提供良好结构化潜在空间的tokenizer仍然是一个未解决的问题。
2025-02-08 23:55:15
1243
原创 Video Depth Anything引领超长视频深度估计最新SOTA!字节跳动开源
在单目深度估计中表现出色,但在视频应用中存在时间不一致性的问题,限制了其实用性。现有方法虽然尝试解决这一问题,但仅适用于短视频,并在质量与计算效率之间存在权衡。
2025-02-04 09:49:33
1234
原创 图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!
随着OpenAI o1向社区展示了思维链Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习RL和提升test-time推理成本的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),来自、和的研究者们通过Verify和Reinforce的方案,系统地探索了“CoT推理+文生图”的结合与潜力。
2025-02-04 09:45:49
937
原创 几秒生成逼真3D场景,泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus
解决的问题实现从文本到3D场景的高效生成,适用于对象级别和场景级别。提升生成3D内容的保真度和几何质量,同时确保模型具备良好的泛化能力。改善现有方法在3D生成中的效率问题,实现快速且高质量的3D生成。提出的方案多视图、前馈、像素对齐的3D高斯生成:将3D场景生成表述为在隐空间变量扩散框架中的这一过程。两阶段训练框架第一阶段:训练3D高斯变分自编码器(GS-VAE),以多视角或单视角的RGB-D图像为输入,预测每个像素对齐的3D高斯。第二阶段。
2025-01-16 22:38:54
995
原创 3D头像资产生产又出SOTA! 加州默塞德&Adobe发布FaceLift:身份保持极佳!
解决的问题细节缺失:传统的基于参数化网格的模型难以生成高细节和高真实感的面部几何和纹理。身份保持差:仅用合成数据训练的模型在生成结果中会导致显著的身份感知损失。视角一致性不足:现有方法难以保证不同视角生成的图像在几何和纹理上的一致性。提出的方案第一阶段:多视角生成基于扩散模型的多视角生成方法。通过图像条件扩散模型生成头部的侧面和背面视图。利用多视角一致的合成数据进行模型微调,增强视角一致性和泛化能力。第二阶段:3D重建使用最先进的GS-LRM模型,将生成的稀疏多视角图像融合为完整的3D高斯表示。
2025-01-16 22:35:20
1061
原创 即插即用,无缝集成各种模型,港科大&蚂蚁等发布Edicho:图像编辑一致性最新成果!
解决的问题跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。提出的方案本文提出了一种基于扩散模型的训练无关解决方案Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。
2025-01-09 22:18:56
827
原创 视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp
解决的问题当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。提出的方案框架设计:提出了一个统一的视频生成传播框架——GenProp。使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。
2025-01-09 21:27:34
1609
原创 机器人学习和控制的新里程碑!谷歌研发可以打乒乓球的机器人!完胜初学者!
本文的代理架构和训练方法专为解决与人类进行乒乓球竞技所带来的诸多挑战而设计。下图2所示的乒乓球代理由两个控制层级组成,本文称之为高层控制器(HLC)和低层控制器(LLCs)。LLCs是代表不同乒乓球技能的策略,训练以每秒50次的频率生成关节速度命令。例如,LLCs可能代表使用正手击球并击打斜线球、保守地使用反手击球,或使用正手回击下旋发球。HLC负责在每次来球事件中选择应执行的LLC。HLC没有固定的控制频率,而是在对手击球时触发动作。
2025-01-07 23:04:01
1023
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人