- 博客(315)
- 收藏
- 关注
原创 让SDXL实现50倍加速!中山&字节最新对抗训练+双空间判别,单步生成新标杆!性能狂飙
【摘要】本文提出对抗分布匹配(ADM)框架,通过扩散判别器在隐空间对齐真实与伪造分数估计,替代传统显式散度度量,有效解决分布匹配蒸馏中的模式崩溃问题。创新性地采用混合判别器对抗蒸馏(ADP)进行预训练,结合ODE轨迹分布损失优化初始化,与ADM微调形成统一流程DMDX。在SDXL上实现50倍加速的一步生成,同时为SD3、CogVideoX等模型设立图像/视频高效生成新基准。实验表明,该方法在保真度、多样性和训练稳定性方面显著优于现有方案,尤其通过三次方时间步调度增强模式覆盖能力。
2025-08-18 11:02:19
821
原创 自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
NextStep-1:连续图像流匹配自回归架构的突破 本文提出NextStep-1,一种创新的自回归模型,通过轻量级流匹配头(157M参数)实现高质量patch-by-patch图像生成,摆脱传统扩散模型依赖。核心创新包括: 统一多模态框架:结合14B参数的自回归主干,同时处理离散文本和连续图像token,避免量化损失。 高维隐空间稳定技术:通过通道归一化与随机扰动tokenizer设计,支持16通道稳定训练,消除伪影。
2025-08-18 10:55:24
554
原创 Lumina-mGPT 2.0横空出世:自回归模型终结扩散时代?媲美DALL·E 3,更自由、更全能!
摘要: Lumina-mGPT2.0提出了一种独立的自回归解码器模型,从零训练实现高质量多模态生成。与依赖预训练或混合架构的现有方法不同,该模型采用纯AR架构,支持图像生成、编辑、可控合成等统一任务。通过SBER-MoVQGAN分词器和多阶段训练策略,生成质量媲美DALL·E3等扩散模型。创新点包括推理时缩放提升质量、猜测式Jacobi采样加速解码,以及GPT-4o辅助的"生成前思考"优化提示。实验显示,其2B/7B版本在GenEval、DPG基准上表现优异,多任务能力超越同类模型。
2025-08-07 22:29:46
408
原创 LongVie突破超长视频生成极限:1分钟电影级丝滑视频,双模态控制告别卡顿退化
本文提出LongVie框架,针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制(结合稠密深度图与稀疏关键点)、全局归一化和统一噪声初始化,显著提升了生成质量。实验表明,LongVie在1分钟以上视频生成中达到SOTA性能,并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。
2025-08-07 22:24:05
839
原创 ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转长视频生成
TokensGen提出创新两阶段框架解决长视频生成难题:1)To2V模型通过视频Tokenizer将短片段压缩为高语义密度Token,实现精细内容控制;2)T2To模型采用扩散Transformer一次性生成长视频Token序列,确保长期一致性。关键技术突破包括自适应FIFO-Diffusion对角去噪策略实现平滑过渡,以及基于PCA的轻量降维保持90%以上压缩率。实验表明,该方法在2分钟视频生成中显著优于主流基线,运动平滑度指标提升20%+,同时支持零拍摄长视频编辑。
2025-08-06 22:27:27
1436
原创 ICCV`25 | 视频魔法再升级!字节新神器VTG:输入首尾图+描述词,瞬间生成超自然丝滑转场
本文提出了一种统一的多功能视频过渡生成框架VTG,能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题,结合双向运动微调提升时间连贯性,并引入表示对齐正则化增强保真度。实验表明,VTG在构建的TransitBench基准和公开数据集上均优于现有方法,实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。
2025-08-06 22:23:55
1010
原创 全景宇宙黑科技!HunyuanWorld 1.0 发布:一键生成360°可交互3D世界
腾讯混元世界1.0(HunyuanWorld1.0)是一个创新的3D世界生成框架,通过融合2D与3D生成技术,实现从文本/图像创建沉浸式可交互3D场景。其核心是语义分层的3D网格表示,支持360°全景世界代理、分层重建和物体级解耦建模。采用全景图像作为世界代理,结合深度估计、网格变形和世界一致性视频扩散等技术,解决了传统方法在3D一致性、交互性和可扩展性方面的局限。实验表明,该系统在视觉质量、场景一致性和交互性上优于现有方法,支持VR、游戏开发、物理仿真等应用场景。
2025-08-05 21:42:46
796
原创 AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!
AudioGen-Omni 首个统一多模态框架,支持视频同步生成多样化音频(通用音频、语音、歌曲)。该模型采用多模态扩散Transformer(MMDiT)架构,通过相位对齐位置注入(PAAPI)技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示,无需音素时长监督。模型在联合训练范式下,利用大规模多模态数据,支持灵活的条件输入(视频/文本/音频任意组合)。实验表明,其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平,8秒音频生成仅需1.91秒。
2025-08-05 21:36:11
1404
原创 ICCV 2025|告别语义漂移!清华最新3D场景定制神器ScenePainter让“想象”走得更远
本文提出ScenePainter框架,解决3D场景生成中的语义漂移和多样性不足问题。通过构建分层图结构SceneConceptGraph,建模场景中物体、布局与风格的复杂关系,并优化扩散模型以对齐场景特定先验。框架支持动态细化概念关系,平衡语义一致性与内容创新。实验表明,相比现有方法(如WonderJourney),ScenePainter生成的长序列3D视图更一致且沉浸,CLIP-I和DINO指标分别提升15%和12%,用户研究显示其在多样性-一致性权衡上优势显著。
2025-08-04 23:42:57
600
原创 ICCV 2025|单视频生成动态4D场景!中科大&微软突破4D生成瓶颈,动画效果炸裂来袭!
本文提出创新性4D生成框架GVF-Diffusion,通过"4D网格变分自编码器+高斯变分场扩散模型"双模块架构,实现高效视频到4D内容生成。关键突破包括:1)首创直接编码4D动画为紧凑隐空间的VAE,结合网格引导损失确保运动对齐;2)采用时间感知DiT架构的条件扩散模型,通过交叉注意力融合视频特征与3D高斯场;3)在合成数据训练下展现优秀真实视频泛化能力。实验表明,该方法在PSNR(25.37)、LPIPS(0.098)等指标上超越现有技术,单序列生成仅需4.5秒。
2025-08-04 23:37:06
1460
原创 ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”
本文提出DC-AR,一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer(32倍空间压缩率)和三阶段适应训练策略,解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制:先预测离散token确定图像结构,再用残差token优化细节。实验表明,该方法在MJHQ-30K上取得5.49 gFID,推理速度比扩散模型快1.5-7.9倍,延迟降低2.0-3.5倍,仅需12步即可生成高质量图像,同时支持跨分辨率泛化。
2025-07-24 23:41:25
977
原创 DiT迎来真·一致性之王!CharaConsist双杀角色变形&背景撕裂:跨场景换装不崩人设
本文提出CharaConsist,首个基于DiT架构的无需训练的一致性文本生成图像方法。针对现有方案在角色细节和背景一致性上的不足,该方法创新性地引入点追踪注意力机制和自适应Token合并技术:通过跨图像语义点匹配实现角色细粒度对齐,利用掩码提取分离前景/背景控制,并采用动态位置编码保持几何关系。实验表明,在背景保持与切换任务中,该方法在CLIP-I-fg/bg指标上分别超越基线模型15%/20%,且无需额外训练即可适配十亿级参数DiT。
2025-07-24 23:37:46
919
原创 动脑就能P图!LoongX重磅突破:首个「脑波+AI」图像编辑系统诞生,意念修图不是梦!
摘要: 本文提出LoongX框架,利用多模态神经信号(EEG、fNIRS、PPG、动作及语音)驱动免手图像编辑,解决了传统文本提示的交互局限。通过跨尺度状态空间(CS3)编码器和动态门控融合(DGF)模块,LoongX高效提取并融合多模态特征,结合扩散模型(DiT)实现语义对齐。
2025-07-22 22:33:49
903
原创 AI绘画翻车元凶找到了!新神器IMBA损失,在线轻调立竿见影,效果炸裂!清华&快手出品
本文提出IMBAloss方法,通过在线概念均衡提升生成模型的概念组合能力。研究首先分析了影响概念组合的三大因素:模型规模、数据规模和分布,发现数据分布是关键决定因素。针对数据不平衡问题,创新性地提出IMBA距离作为数据分布度量指标,并在此基础上设计自适应的IMBAloss损失函数,实现概念级均衡训练。为评估惰性概念组合能力,构建了Inert-CompBench基准测试集。实验表明,该方法在多个基准上显著提升组合成功率,尤其在处理低频概念时表现突出。
2025-07-22 22:30:22
820
原创 海报设计革命,开源媲美部分商用!港科大&美团等提出PosterCraft:让AI实现「构图自由」
摘要: PosterCraft提出了一种统一框架,通过四阶段级联优化(文本渲染优化、风格微调、美学强化学习、视觉-语言反馈)生成高质量海报,解决了传统模块化方法导致的视觉连贯性差问题。其核心创新包括:构建专属数据集(如Text-Render-2M、HQ-Poster-100K)、区域感知校准策略和基于偏好的强化学习。实验表明,PosterCraft在文本准确性、布局连贯性和美学质量上超越开源基准,媲美商业系统,为端到端海报生成提供了高效解决方案。项目资源(代码、论文、演示)均已开源。
2025-07-06 22:57:42
754
原创 SIGGRAGH 2025 | AI视频生成新纪元!港大&达摩院发布LayerFlow:分层视频生成黑科技
LayerFlow一种创新的分层视频生成框架,能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成,并设计了多阶段训练策略:先使用低质量视频数据训练基础模型,再通过MotionLoRA适配静态图像,最后用ContentLoRA融合高质量图像与视频数据。实验表明,该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型,为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制,同时有效缓解了高质量分层视频数据稀缺的问题。
2025-06-18 13:32:09
635
原创 视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定
视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。
2025-06-18 13:06:53
731
原创 CVPR`25 | 感知性能飙升50%!JarvisIR:VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气
JarvisIR是一种基于视觉语言模型(VLM)的智能图像恢复系统,专为解决自动驾驶等场景中复杂天气条件下的图像退化问题而设计。该系统通过VLM作为控制器,动态调度多个专家模型进行图像修复,并提出CleanBench数据集(包含合成和真实数据)及MRRHF对齐算法(结合监督微调与人类反馈)。实验表明,JarvisIR在真实场景中平均提升感知指标50%,显著优于现有方法。该研究为智能化图像恢复提供了新思路,推动了多模型协同技术的发展。
2025-06-17 23:09:23
979
原创 打破次元壁!港大和达摩院联合发布头号玩家PlayerOne模型:世界首款“自我中心”模拟器!
香港大学与阿里达摩院联合推出PlayerOne模型,实现真实世界的第一人称动态模拟。该系统通过外置摄像头捕捉用户动作(如手势、头部转动),将其无缝融入由单张图像构建的虚拟场景,支持无限制交互与AAA级画质体验。关键技术包括:部件解耦的动作编码(区分头/手/躯干)、4D场景点云重建确保一致性,以及两阶段训练策略解决数据稀缺问题。相比现有方案,PlayerOne在动作对齐和场景交互方面表现更优,为沉浸式社交、虚拟探索等应用开辟新可能。
2025-06-17 00:11:07
1124
原创 为何前馈3DGS的边界总是“一碰就碎”?PM-Loss用“3D几何先验”来解
本文提出PM-Loss,一种用于提升前馈式3D高斯泼溅(3DGS)几何质量的正则化损失。针对现有方法依赖2D深度图导致几何边界不完整的问题,PM-Loss利用大型3D重建模型生成的点云作为几何先验,在训练时直接约束3D空间的高斯分布。实验表明,该方法能有效消除边界浮点,在主流模型和数据集上实现超过2dB的PSNR提升,且无需修改模型架构或增加推理开销。这项工作为3DGS的几何重建提供了新的优化思路。
2025-06-16 23:20:35
805
原创 CVPR 2025 | 训练效率提升42%!上交&腾讯优图&浙大发布IAR:打破LLM视觉生成瓶颈
针对自回归视觉生成模型中图像与语言的根本差异问题,提出IAR改进方法。研究发现视觉编码空间中相似编码对应相近图像内容,据此设计两项创新技术:(1)基于平衡K-means的码本重排策略,确保簇内编码高度相似;(2)簇导向交叉熵损失,引导模型预测目标Token所在簇而非单一Token。实验表明,该方法显著提升生成质量和训练效率(最大提升42%),在ImageNet上取得FID 2.19、IS 362.0的SOTA效果,且可泛化至LlamaGen、VAR等多种自回归模型。该工作为统一多模态生成提供了新思路。
2025-06-15 22:57:41
839
原创 视频修复黑科技!SeedVR2一步出高清,对抗训练让模糊瞬间变好莱坞级!南洋理工&字节
摘要: 本文提出 SeedVR2,一种基于一步扩散模型的高效视频修复方法,通过 自适应窗口注意力机制 动态调整窗口大小,解决高分辨率(如1080p)修复中的窗口不一致问题。结合 对抗式后训练 和渐进式蒸馏策略,优化损失函数(如特征匹配损失),显著提升模型稳定性与修复质量。实验表明,SeedVR2在合成与真实场景数据上均优于现有方法,推理速度比多步扩散模型快4倍以上,兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。
2025-06-15 22:53:32
997
原创 首个自回归文生图风格化!StyleAR突破AI绘图新高度:单张图+提示词,完美复刻任意风格!
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。
2025-06-09 00:38:12
905
原创 图像生成里的“思维链”对决:DPO与GRPO谁主沉浮?港中文&北大等首发系统化对比研究
这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”,而是更适合于不同场景:DPO 适合在已有高质量数据基础上深度优化,追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时,研究也强调了奖励模型作为“训练导航仪”的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。
2025-06-09 00:34:18
872
原创 优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!
HunyuanCustom是一种创新的多模态定制视频生成框架,首次实现了图像、音频、视频和文本四模态联合驱动的视频生成,突破了传统单模态(如图像)的限制。该框架通过时序拼接和跨帧特征增强,显著提升了生成视频中主题的身份一致性,优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制,如AudioNet和视频Patchify对齐,实现了多模态条件的高效解耦与融合,兼顾了灵活性与性能。
2025-05-11 23:27:00
682
原创 多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型
本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先,文章介绍了多模态理解与文本生成图像模型的基础概念,并梳理了现有统一模型的三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构。随后,文章整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战,包括分词策略、跨模态注意力机制与数据问题。
2025-05-11 23:22:24
1306
原创 重磅突破!只需一张图,一键生成沉浸式4D全景世界!HoloTime重塑VR/AR体验(北大等)
HoloTime框架提出了一种创新的方法,将静态全景图像转换为动态的4D场景,解决现有技术中沉浸体验受限、数据瓶颈和时空不一致性的问题。包括全景动画生成器和全景时空重建技术,通过两阶段运动引导生成策略和4D高斯泼溅(4D-GS)表征,实现了高质量的全景视频生成和4D场景重建。HoloTime还引入360World数据集,这是首个固定摄像机视角的全景视频综合数据集,为4D生成研究提供了重要支持。实验结果表明,HoloTime在全景视频生成质量和4D场景时空一致性方面均有显著提升,为元宇宙内容生产提供了新范式。
2025-05-08 23:51:19
1304
原创 无需外挂!DiT自蒸馏神技SRA横空出世:偷偷自学的表征对齐术让生成质量暴涨!
Diffusion transformer在视觉生成领域展现出了有效的可扩展性和可迁移性。最近的研究发现高质量的内部表征能够加速其生成训练,并提升生成样本的质量然而,现有方法在提供表征指导时,要么引入复杂训练框架,要么依赖大规模预训练模型,这限制了其应用场景和资源效率。
2025-05-08 23:47:07
694
原创 CVPR`25 | SOTA!首揭PCA解决长视频低质问题!FreePCA让长视频丝滑如电影!(中科大)
长视频生成的分布偏移问题使用基于短视频训练的模型生成长视频时,由于帧数变化导致数据分布偏移,出现质量下降、物体缺失和运动缓慢等问题。全局与局部信息难以有效融合现有方法(如全局对齐或局部滑动窗口拼接)无法兼顾全局一致性和局部质量,导致视频出现运动不一致或视觉质量下降。外观与运动耦合的挑战视频中的外观和运动高度耦合,直接融合全局和局部特征会导致生成结果不协调。
2025-05-07 22:48:53
895
原创 五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了
精度与效率的权衡问题现有基于微调的方法(Fine-tuning)需要大量计算资源和数据集,效率低。免训练方法(Training-free)在指令理解和编辑质量上表现不佳,精度不足。指令理解与编辑质量不足免训练方法难以准确解析复杂指令,导致编辑效果不理想。微调方法依赖大规模数据训练(如 450K~10M 样本),计算成本高。初始噪声选择影响编辑质量不同的初始噪声会导致不同的编辑效果,如何优化噪声选择以提高输出质量是关键挑战。
2025-05-07 22:44:33
879
原创 颠覆影视圈!全球首个开源「无限时长」电影生成模型炸场:昆仑万维把视频生成卷到新时代
Prompt Adherence(提示词遵循):现有通用多模态大语言模型(MLLM)难以理解电影语法(如镜头构图、演员表情、摄像机运动),导致生成的视频不符合专业电影风格。Motion Dynamics(运动动态):现有方法在优化时往往牺牲运动质量以提升视觉质量,导致动态效果不足。Video Duration(视频时长):现有模型受限于分辨率优化,通常只能生成5-10秒的短视频,难以实现长视频合成。Training Stability(训练稳定性)
2025-04-24 22:32:13
1303
原创 只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。
2025-04-24 22:24:09
741
原创 45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
现有隐空间扩散模型(LDM)采用两阶段训练(先训练VAE,再固定VAE训练扩散模型),导致两个阶段的优化目标不一致,限制了生成性能。直接端到端联合训练VAE和扩散模型时,传统扩散损失(Diffusion Loss)失效,甚至导致性能下降。
2025-04-23 08:01:51
1117
原创 让数字人视频告别“恐怖谷“!字节团队最新DreamActor-M1实现人类表情动作像素级操控
最近的基于图像的人像动画方法在逼真的身体和面部动作合成方面取得了一定进展,但在细粒度整体可控性、多尺度适应性和长期时间一致性上仍存在不足,导致表现力和鲁棒性较低。
2025-04-23 07:58:28
1277
原创 AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构,导致失真。缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。OmniTr数据集:填补多模态长序列轨迹数据的空白。6DoF长序列控制。
2025-04-13 10:13:45
1148
原创 突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!
身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。
2025-04-13 10:10:24
793
原创 炸裂!昆仑万维开源「元素级视频生成」神器SkyReels-A2!效果吊打闭源商业模型!
元素保真问题:现有视频生成模型难以在生成过程中严格保持多参考元素(如角色、物体、背景)的外观一致性。场景协调性:需解决多元素组合时的全局协调性(如自然交互、合理构图),避免生成内容割裂或失真。输出自然性:传统方法(如I2V)易依赖初始帧的“复制粘贴”,导致动态效果生硬;T2V则因随机性难以控制具体元素。缺乏评估基准:当前缺少针对多元素视频生成(E2V)任务的系统化评估标准。
2025-04-12 09:02:39
822
原创 图像编辑进入“精修时代”!“指哪改哪”!北交&美图发布DCEdit:改图不伤背景的终极方案
文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义,而以往的方法在这方面存在不足。
2025-04-12 08:57:27
1026
原创 单一模型统一多图个性化生成!字节重磅开源UNO, FLUX版训练、推理、权重全开源!
字节开源UNO,渐进式数据生成框架和通用定制化模型,实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能,包括单主体和多主体驱动的图像生成,并且能泛化到身份保持,换装,风格化等场景。
2025-04-11 23:33:08
1374
原创 一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!
阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。
2025-04-11 23:26:45
1200
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人