数字人
文章平均质量分 92
bhoigu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HunyuanVideo-Avatar:为多个角色制作高保真音频驱动的人体动画
局部注入控制: 仅在人脸区域引入音频,避免影响全身或背景区域;多角色解耦: 各角色使用独立音频,互不干扰;强时序一致性: 精确对齐压缩后的视频 latent 和音频特征;原创 2025-08-13 23:58:20 · 1401 阅读 · 0 评论 -
变分自编码器(VAE)
变分自编码器一:原来是这么一回事VAE的本质是什么?VAE虽然也称是AE(AutoEncoder)的一种,但它的做法(或者说它对网络的诠释)是别具一格的。在VAE中,它的Encoder有两个,一个用来计算均值,一个用来计算方差,这已经让人意外了:Encoder不是用来Encode的,是用来算均值和方差的,这真是大新闻了,还有均值和方差不都是统计量吗,怎么是用神经网络来算的?原创 2025-06-28 18:13:17 · 1437 阅读 · 0 评论 -
EMAGE:通过具表现力的掩码音频动作建模,实现统一的整体共语姿态生成
目标:根据音频生成全身人类姿态,包括面部表情,局部动作、手部动作和整体移动解决方案创建BEAT2数据集, 在已有 BEAT 数据集基础上扩展和精细化制作的,其目的是为了支持 全身(含面部、手、身体等)共语姿态生成任务。提出EMAGE,引入遮蔽的身体动作先验,以提升推理性能 该框架包含一个掩码音频-姿态 Transformer 模型,能够联合训练音频到动作生成与遮蔽动作重建两个任务,从而有效编码音频信息和身体动作提示,遮蔽动作中编码得到的身体提示随后被分别用于生成面部表情与身体动作。原创 2025-06-16 21:40:23 · 1100 阅读 · 0 评论 -
去噪扩散概率模型(DDPM)全解:从数学基础到实现细节
在这篇博客文章中,我们将深入探讨去噪扩散概率模型(也被称为 DDPMs,扩散模型,基于得分的生成模型,或简称为自动编码器),这可以说是AIGC最近几年飞速发展的基石,如果你想做生成式人工智能,这个模型肯定是绕不过的门槛,基于扩散模型,研究人员已经在图像/音频/视频的有条件或无条件生成任务中取得了显著成果。当前一些流行的应用包括 OpenAI 的 GLIDE 和 DALL-E 2,海德堡大学的 Latent Diffusion,以及 Google Brain 的 ImageGen。原创 2025-06-15 18:06:53 · 1287 阅读 · 0 评论 -
EchoMimicV2:迈向引人注目、简化的半身人类动画
描述当前常用的控制条件(如文本、音频、姿势、光流、动作图)为生成逼真动画提供了良好基础,但引入更多的辅助条件会导致两个问题:一是 多条件之间协调性差,造成训练不稳定;二是条件注入模块结构复杂,推理延迟显著增加。解决方案采用音频-姿势动态协调的训练策略 以调节音频和姿势两个条件输入,并减少姿势条件的冗余性。同时引入PHD Loss(阶段性损失)以取代对 冗余控制条件的依赖。优点:支持不同尺寸图片输入,背景简洁的半身露手图片效果较好,图像和手势对齐的时候效果最好,支持多种格式音频输入(mp3和wav)原创 2025-06-02 22:50:44 · 2972 阅读 · 0 评论 -
MagicAnimate 论文解读:引入时间一致性的视频人物动画生成方法
MagicAnimate 提出了一个结构清晰、模块化、效果优异的视频人物动画生成框架。相比于传统方法,它在时间建模和外观保留方面做出显著提升。主要亮点包括:🧠 时间注意力机制:从根本上解决帧间不一致问题;🎨 外观编码器:高质量地迁移身份信息;📦 联合训练策略:有效结合图像和视频数据,提升泛化能力;📽️ 自然的长视频合成:通过简洁的融合方法,解决长视频生成的平滑过渡问题。这使得 MagicAnimate 成为当前视频人物动画领域的重要进展之一,为生成式动画技术的落地和应用提供了坚实基础。原创 2025-06-01 00:42:48 · 1193 阅读 · 0 评论 -
EMO2:基于末端执行器引导的音频驱动虚拟形象视频生成
今天带来EMO2,(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得一提的是目前阿里并没有开源这个项目,所以今天内容仅供学习(阿里的EMO一代到目前都还没有开源,所以等项目开源那是遥遥无期)欢迎大家再评论区讨论原创 2025-05-30 22:01:34 · 2495 阅读 · 0 评论 -
ANIMATEDIFF: 无需特定微调,实现个性化文本到图像扩散模型的动画化
为已有的高质量个性化的模型添加运动动态,使其生成动画(gif动图)随着文本到图像(T2I)扩散模型(如 Stable Diffusion)以及相应个性化技术(如 DreamBooth 和 LoRA)的发展,每个人都可以以较低的成本将自己的想象转化为高质量的图像。原创 2025-05-27 16:13:07 · 4226 阅读 · 1 评论 -
AIGC:助力虚拟数字人飞速发展
AIGC(人工智能生成内容)以其强大的智能生成能力,正在引领一场前所未有的技术革命。在这场革命中,虚拟数字人作为AIGC的重要应用领域,正逐渐展现出其巨大的潜力和价值。原创 2025-05-21 14:36:15 · 495 阅读 · 0 评论
分享