- 博客(15)
- 收藏
- 关注
原创 World-Grounded Human Motion Recovery via Gravity-View Coordinates
我们提出了一种从单目视频中恢复基于世界坐标系的人体运动的新方法。主要挑战在于定义世界坐标系的不确定性,因为不同的视频序列有不同的坐标系。以往的方法试图通过自回归方式预测相对运动来缓解这个问题,但容易出现累积误差。相反,我们提出在一种新的重力-视角 (GV) 坐标系中估计人体姿态,该坐标系由世界重力和相机视角方向定义。所提出的 GV 系统自然地对齐重力,并为每个视频帧提供唯一的定义,从而大大减少了学习图像-姿态映射的不确定性。估计的姿态可以使用相机旋转转换回世界坐标系,形成全局运动序列。
2024-12-17 13:06:31
1553
原创 DISPOSE: DISENTANGLING POSE GUIDANCE FORCONTROLLABLE HUMAN IMAGE ANIMATION
在本文中,我们提出了一种无需额外密集输入就能挖掘更一般化和有效的控制信号的方法,将人体图像动画中的稀疏骨架姿态分解为运动场引导和关键点对应。经过训练后,我们的模型可以整合到现有的人体图像动画模型中。可控人体图像动画的目标是根据驱动视频生成参考图像的动画视频,与其它可控视频生成方法相比,它具有更大的灵活性和应用潜力,可以生成更复杂的人物外观和运动模式。为了解决现有方法的局限性,论文提出了 DisPose,一个可插拔的模块,旨在从仅骨骼姿态图和参考图像中提取更通用的控制信号,无需额外的密集输入。
2024-12-17 10:29:13
1053
原创 Identity-Preserving Text-to-Video Generation by Frequency Decomposition
受先前视觉/扩散 Transformer 频率分析的启发,它使用频域中的身份控制信号,其中面部特征可以分解为低频全局特征(例如,轮廓、比例)和高频内在特征(例如,不受姿势变化影响的身份标记)。它可以无缝集成到现有的基于dit的文本到视频模型中,以生成高质量,可编辑,一致的身份保留视频。提出利用 DiT 的频率分析结果,通过将身份特征分解为高频和低频信号,并将其注入到 DiT 的特定位置,实现高效的身份保持文本到视频生成。使用来自训练集以外的视频帧的参考图像作为输入,以增强模型的泛化能力,避免模型过度拟合。
2024-12-14 07:00:00
1375
原创 StableAnimator: High-Quality Identity-Preserving Human Image Animation
StableAnimator 是一种创新的端到端人像动画生成模型,它能够在保证身份信息一致性的前提下,根据参考图像和一系列姿态生成高质量的视频。该模型通过全局内容感知面部编码器增强面部嵌入,使其能够更好地理解参考图像的整体布局和背景信息,并通过分布感知身份适配器解决视频扩散模型中时空信息融合带来的身份信息损失问题。此外,StableAnimator 还利用基于 Hamilton-Jacobi-Bellman 方程的面部优化技术在推理阶段进一步优化面部质量,减少对第三方面部交换工具的依赖。
2024-12-13 17:14:14
1470
原创 FLOAT: Generative Motion Latent Flow Matching for Audio-driven TalkingPortrait
随着基于扩散的生成模型的快速发展,人像动画已经取得了显著的效果。然而,由于其迭代采样的特性,在视频的时间一致性生成和快速采样方面仍然面临着挑战。为了实现这一点,我们引入了一种基于 Transformer 的向量场预测器,该预测器具有简单而有效的逐帧调节机制。此外,我们的方法支持语音驱动的情感增强,使表达动作的自然结合成为可能。大量的实验表明,我们的方法在视觉质量、运动保真度和效率方面优于最先进的音频驱动的说话肖像方法。
2024-12-10 12:28:41
1099
原创 MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
视频扩散模型的最新进展为现实音频驱动的谈话视频生成解锁了新的潜力。然而,在生成的谈话视频中实现无缝的音频唇同步、保持长期身份一致性以及产生自然的、音频一致的表情仍然是重大挑战。为了解决这些挑战,我们提出了记忆引导的情感感知扩散(MEMO),这是一种端到端音频驱动的肖像动画方法,用于生成身份一致且富有表情的谈话视频。
2024-12-09 10:43:44
1140
原创 MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
视频扩散模型的最新进展为现实音频驱动的谈话视频生成解锁了新的潜力。然而,在生成的谈话视频中实现无缝的音频唇同步、保持长期身份一致性以及产生自然的、音频一致的表情仍然是重大挑战。为了解决这些挑战,我们提出了记忆引导的情感感知扩散(MEMO),这是一种端到端音频驱动的肖像动画方法,用于生成身份一致且富有表情的谈话视频。
2024-12-08 18:05:03
870
原创 One Shot, One Talk: Whole-body Talking Avatar from a Single Image
为了解决复杂动态建模的挑战,我们利用单输入图像和不完美的伪标签来训练混合mesh-3DGS化身表示,并受到几个精心设计的正则化的约束。泛化到新的姿势和表情:现有的方法通常依赖于训练数据,难以泛化到新的姿势和表情,尤其是在只有一张照片的情况下。为了克服由不完整和嘈杂的伪视频引起的动态建模挑战,论文引入了一种紧密耦合的3DGS-mesh混合avatar表示,并应用了几种关键的正则化来减轻伪标签引起的不一致性。实验结果表明,我们的方法优于现有的技术,我们的一次性头像甚至超过了需要视频输入的最先进的方法。
2024-12-08 07:00:00
1270
原创 Sonic: Shifting Focus to Global Audio Perception in Portrait Animation
说话脸生成的研究主要探讨同步面部运动和制作视觉上吸引人的、时间上连贯的动画的复杂性。然而,由于对全局听觉感知的探索有限,目前的方法主要是利用辅助的视觉和空间知识来稳定运动,这往往导致自然度的恶化和时间的不一致性。考虑到音频驱动动画的本质,音频信号是调整面部表情和嘴唇动作的理想和唯一的先验,不需要任何视觉信号的干扰。基于这一动机,我们提出了一种新的范式,称为Sonic,将重点转移到全球音频感知的探索上。为了有效地利用全局音频知识,我们将其分解为片段内和片段间的音频感知,并利用这两个方面来增强整体感知。
2024-12-07 18:13:01
1452
原创 ECCV 2024 | GKGNet:基于组k近邻的多标签图像识别图卷积网络
GKGNet构建了两个不同的图:一个是模拟目标标签和图像块之间的标签-对象关系的跨层图,另一个是处理和更新块之间的图像特征的块级图。因此,即使存在不规则和不连续的区域,GKGNet也能够自适应地整合特别需要关注的的小块的特征,从而有效地更新视觉特征和标签嵌入的统一图形表示。此外,CNN学习的图像表示与GCN处理的标签的语义嵌入不太一致,这阻碍了信息传递。†表示使用EMA模型。用于提取图像特征,捕获图像块之间的语义关系,并捕获分布在不同位置的对象的各个部分或同一类别对象的多个部分,以获得更鲁棒的视觉表示。
2024-12-06 14:52:03
1112
原创 Nature|AI-generated poetry is indistinguishable from humanwritten poetry and is rated more favorably
我们选择了我们希望能够涵盖参与者对诗歌的广泛定性体验的品质:一首诗的结构质量(节奏,押韵),它的情感内容(感人,传达一种特定的情绪或情感),它的创造力(原创,诙谐),它的美学特征(美丽,抒情),以及它传达意义的程度(有意义,深刻,传达一个特定的主题)我们的研究表明,与之前的研究相比,人们现在无法将AI生成的诗歌与知名人类诗人的诗歌区分开来,更有可能将AI生成的诗歌判断为人类创作的诗歌并在几个美学维度上对AI生成的诗歌给予更高的评价。与AI生成的画作和面孔一样,AI生成的诗歌现在被认为“比人类更人类”。
2024-12-06 07:00:00
1147
原创 采用通道像素注意力的多标签图像识别
:多标签图像识别是对包含多个对象类别标签的图像进行预测分类。为了解决多标签图像识别中存在的小对象识别困难和样本数据不平衡问题,分别提出了简单高效的通道像素注意力(CPA)和类权重交叉熵损失。
2024-12-05 12:47:55
1021
原创 TPAMI 2024 | Vision-Language Models for Vision Tasks:A Survey
本文系统回顾了视觉语言模型在各种视觉识别任务中的应用,包括:(1)介绍视觉识别范式发展的背景;(2)总结广泛采用的网络架构、预训练目标和下游任务的VLM基础;(3)在VLM预训练和评估中广泛采用的数据集;(4)对现有的VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法进行综述和分类;(5)对综述的方法进行基准测试、分析和讨论;(6)提出未来VLM研究中可能追求的几个研究挑战和潜在研究方向。
2024-12-04 17:30:13
1918
原创 CIKM 2024 |Large Language Models Enhanced Collaborative Filtering
近年来,大型语言模型 (LLM)的快速发展引起了研究人员将这些模型用于增强推荐系统(RS)的浓厚兴趣。现有工作主要利用LLM生成知识丰富的文本,或利用LLM派生的嵌入作为特征来改进RS。虽然LLM中嵌入的广泛世界知识通常对RS有益,但该应用只能将有限数量的用户和物品作为输入,而没有充分利用协同过滤信息。考虑到其在RS中的关键作用,使用LLM增强RS的一个关键挑战在于通过LLM提供更好的协同过滤信息。在本文中,我们受 LLM的上下文学习和思维链推理的启发,提出了大型语言模型增强协同过滤(LLM-CF)框架,该
2024-12-04 17:20:45
1204
原创 ECCV 2024 | Efficient Vision Transformers with PartialAttention
为了解决这个问题,本文引入了一种新的注意力,称为部分注意力,通过减少注意力图中的冗余信息,更有效地学习空间交互。例如,在retainet中,PartialFormer-B3比PVT-M获得43.1%的APbb,比PVT-M高1.2%,同时节省60%的GFLOPs,Swin-T节省1.5%。部分注意力机制通过有效地分离和处理前景集和背景集,降低了计算冗余,并提高了模型的效率。同时,MMSA和SQA的设计以及学习到的抽象token QA的使用,增强了模型的特征多样性,从而在视觉任务中实现了更好的性能。
2024-12-04 17:12:59
902
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅