- 博客(11)
- 收藏
- 关注
原创 运动生成学习周报(3)
精读了两篇论文,"ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis" 和 "MambaGesture: Enhancing Co-Speech Gesture Generation with Mamba and Disentangled Multi-Modality Fusion"
2024-11-18 14:01:11
745
原创 运动生成学习周报(2)
这周精读了两篇论文,「LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation」和「GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents」,粗读了两篇论文,「Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model」和「Back
2024-11-11 00:47:25
906
原创 论文阅读(8)Generating Holistic 3D Human Motion from Speech
和 SOTA 方法(Habibie et al.)相比,TalkSHOW 生成的面部动作更逼真,与语音信号的同步性也更好,同时在身体和手部动作的真实性与多样性表现更好。从图 1 结果中可以看出,TalkSHOW 生成的面部动作中嘴部与相应的音标发音一致,而且身体动作也与单词的表达场景相契合,例如遇到强调时(But),会举起手示意。利用 VQ-VAE 对身体和手部运动的多模态空间进行建模,然后使用交叉条件自回归模型结合学习到的码本,去预测身体和手势动作,并保持同步性。相较其他数据集,对人体的表征更加精细。
2024-11-03 22:56:50
701
4
原创 论文阅读(7)Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation
去除 Diffusion Gesture Stabilizer 的模型版本在 FGD、BC 和多样性指标上的表现均不如完整模型。从图 3 可以看出,基于 GAN 的方法容易出现『模型坍塌』的现象,使得模型的输出手势样式单一。是用于归一化的参数。该公式的核心思想是计算每个音频节拍与其最近的运动节拍之间的距离,距离越小,表明手势与音频的节奏越同步。这个公式的意义在于衡量在时间上,关节之间的运动变化相对于其平均变化的比率。运动节拍检测:由于不同关节的运动速度不同,因此采用骨骼之间夹角的变化来追踪运动节拍。
2024-10-23 15:48:02
761
1
原创 论文阅读(6)Learning individual styles of conversational gesture
对于每个说话者的语音输入(行),使用其他说话者的训练模型(列)来预测手势动作。图二中的混淆矩阵对角线上的条目颜色最浅,展示出非训练说话者的模型的预测结果远远不如使用训练说话者模型的预测结果。表二中比较了在已知初始姿势的情况下,仅使用初始姿势、仅使用音频信号和同时使用音频信号及初始姿势的模型性能。因此,通过生成器(G)和鉴别器(D)的对抗训练,生成器学习产生真实感的说话者运动,而鉴别器则学习分类给定的运动序列是真实的还是生成的。:手势和语音是不同步的,手势可能出现在对应话语的之前、之后或期间。
2024-10-20 14:45:29
631
1
原创 论文阅读(5)FLAME: Free-form Language-based Motion Synthesis & Editing
简要介绍论文「FLAME: Free-form Language-based Motion Synthesis & Editing」
2024-10-17 11:47:45
991
1
原创 论文阅读(4)Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight ……
然而,通过初步实验发现,该方法注入的水印在微调后容易失效(Fig. 2c),不适用于模型水印。通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习,允许特定输入的表示与其他输入分离,并在微调后映射到特定标签。相关工作证明,在不知道下游数据集的情况下,向 PLM 注入后门是有可能的。因此,作者们在预训练阶段引入了对比学习损失,使恶意样本远离嵌入空间的良性样本(Fig. 2c)。(例如,全 1 向量),并在预训练阶段使用以下损失来最小化该向量与恶意句子。
2024-01-26 20:04:05
839
1
原创 论文阅读(3)AWEncoder: Adversarial Watermarking Pre-Trained Encoders in Contrastive Learning
我们关心的是嵌入水印后的分布与原始分布的一致性,是单向考虑的。因为 KL 散度强调的是某个分布相对于另一个分布的信息增益,而 JS 散度则是对称地测量两个分布之间的差异。,我们关心的是嵌入的水印与提取水印之间的相似性,是对称考虑的。不同图像导致不同的对抗性图像退化,但视觉质量还令人满意。利用这种扰动,可以有效地将扰动图像聚类到嵌入空间的关键图像。:为什么水印嵌入使用 KL 散度,而水印验证使用 JS 散度?和对应的对抗样本之间的平均 JS 散度来进行相似性分析。的输出用于水印验证。是通过反向传播生成的。
2024-01-25 16:45:21
1378
1
原创 论文阅读(2)Watermarking Pre-trained Encoders in Contrastive Learning
引入一个与任务无关的损失函数来微调水印嵌入模型,使得使用带有触发器的样本(即验证样本)输出与普通编码器的输出有很大的偏差。:通过最大化编码器输出差异,可以以非常高的概率最大化下游模型的输出(即标签)的差异。:编码器所有者对下游任务一无所知,并且旨在保护从他的预训练编码器开发的任何模型的知识产权。:为了进一步增强编码器水印的鲁棒性,作者提出在水印嵌入过程中采用 dropout 的方法。的输出特征相近,来保持下游模型在干净样本上的预测精度。表一表明水印可以有效地嵌入干净的预训练编码器中,并且具有很高的独特性。
2024-01-25 06:08:50
1333
1
原创 论文阅读(1)Adding Conditional Control to Text-to-Image Diffusion Models
记录 ControlNet 的论文阅读摘要
2024-01-18 17:25:22
1393
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人