自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 HunyuanVideo-Avatar:为多个角色制作高保真音频驱动的人体动画

局部注入控制: 仅在人脸区域引入音频,避免影响全身或背景区域;多角色解耦: 各角色使用独立音频,互不干扰;强时序一致性: 精确对齐压缩后的视频 latent 和音频特征;

2025-08-13 23:58:20 1401

原创 从零开始手搓一个GPT大语言模型:从理论到实践的完整指南(一)

上图总结了一个完整的文本数据的处理过程:文本经过分词器划分为token,得到token id后经行向量嵌入,这一步可以模型得以进行loss的反向传播,每一个词向量还需要加上与之对应的位置编码,这是为了提升LLM的顺序序列处理能力,得到的input embedings就可以输入LLM进行训练了,关于位置编码,目前的改进很多,绝对位置编码的应用少了很多,比如千文3使用的RoPE(Rotary Position Embedding),也是目前大语言模型中常用的一种位置编码方式。

2025-08-12 23:11:34 3248 1

原创 变分自编码器(VAE)

变分自编码器一:原来是这么一回事VAE的本质是什么?VAE虽然也称是AE(AutoEncoder)的一种,但它的做法(或者说它对网络的诠释)是别具一格的。在VAE中,它的Encoder有两个,一个用来计算均值,一个用来计算方差,这已经让人意外了:Encoder不是用来Encode的,是用来算均值和方差的,这真是大新闻了,还有均值和方差不都是统计量吗,怎么是用神经网络来算的?

2025-06-28 18:13:17 1436

原创 EMAGE:通过具表现力的掩码音频动作建模,实现统一的整体共语姿态生成

目标:根据音频生成全身人类姿态,包括面部表情,局部动作、手部动作和整体移动解决方案创建BEAT2数据集, 在已有 BEAT 数据集基础上扩展和精细化制作的,其目的是为了支持 全身(含面部、手、身体等)共语姿态生成任务。提出EMAGE,引入遮蔽的身体动作先验,以提升推理性能 该框架包含一个掩码音频-姿态 Transformer 模型,能够联合训练音频到动作生成与遮蔽动作重建两个任务,从而有效编码音频信息和身体动作提示,遮蔽动作中编码得到的身体提示随后被分别用于生成面部表情与身体动作。

2025-06-16 21:40:23 1100

原创 去噪扩散概率模型(DDPM)全解:从数学基础到实现细节

在这篇博客文章中,我们将深入探讨去噪扩散概率模型(也被称为 DDPMs,扩散模型,基于得分的生成模型,或简称为自动编码器),这可以说是AIGC最近几年飞速发展的基石,如果你想做生成式人工智能,这个模型肯定是绕不过的门槛,基于扩散模型,研究人员已经在图像/音频/视频的有条件或无条件生成任务中取得了显著成果。当前一些流行的应用包括 OpenAI 的 GLIDE 和 DALL-E 2,海德堡大学的 Latent Diffusion,以及 Google Brain 的 ImageGen。

2025-06-15 18:06:53 1287

原创 OpenEMMA: 打破Waymo闭源,首个开源端到端多模态模型

OpenEMMA(Open-source End-to-end Multimodal Model for Autonomous driving)是由德州农工大学、密歇根大学和多伦多大学联合推出的开源端到端自动驾驶多模态模型框架,旨在复现并开源 Waymo 旗下 EMMA 系统的核心思路与方法。该框架基于预训练的多模态大型语言模型(MLLMs),结合视觉感知和历史驾驶状态,实现对复杂驾驶场景的推理、判断和轨迹规划。

2025-06-03 21:38:08 1294

原创 EchoMimicV2:迈向引人注目、简化的半身人类动画

描述当前常用的控制条件(如文本、音频、姿势、光流、动作图)为生成逼真动画提供了良好基础,但引入更多的辅助条件会导致两个问题:一是 多条件之间协调性差,造成训练不稳定;二是条件注入模块结构复杂,推理延迟显著增加。解决方案采用音频-姿势动态协调的训练策略 以调节音频和姿势两个条件输入,并减少姿势条件的冗余性。同时引入PHD Loss(阶段性损失)以取代对 冗余控制条件的依赖。优点:支持不同尺寸图片输入,背景简洁的半身露手图片效果较好,图像和手势对齐的时候效果最好,支持多种格式音频输入(mp3和wav)

2025-06-02 22:50:44 2972

原创 MagicAnimate 论文解读:引入时间一致性的视频人物动画生成方法

MagicAnimate 提出了一个结构清晰、模块化、效果优异的视频人物动画生成框架。相比于传统方法,它在时间建模和外观保留方面做出显著提升。主要亮点包括:🧠 时间注意力机制:从根本上解决帧间不一致问题;🎨 外观编码器:高质量地迁移身份信息;📦 联合训练策略:有效结合图像和视频数据,提升泛化能力;📽️ 自然的长视频合成:通过简洁的融合方法,解决长视频生成的平滑过渡问题。这使得 MagicAnimate 成为当前视频人物动画领域的重要进展之一,为生成式动画技术的落地和应用提供了坚实基础。

2025-06-01 00:42:48 1193

原创 NVIDIA Cosmos™:加速物理人工智能的生成式世界模型平台

World Foundation Model(WFM) 是 Cosmos 的底层支撑技术,是一种专门为物理世界感知与模拟设计的生成式世界模型。WFM 能够在模拟空间中重构真实物理交互环境,学习物体之间的动态因果机制与演化过程。连续潜空间(Continuous Latent)与离散潜空间(Discrete Latent)的建模能力可扩展至多模态输入(视觉、语言、轨迹、深度等)具备从起始帧生成中间状态序列的能力,适用于视频生成、运动模拟等场景。

2025-05-31 20:42:02 1377

原创 EMO2:基于末端执行器引导的音频驱动虚拟形象视频生成

今天带来EMO2,(全称End-Effector Guided Audio-Driven Avatar Video Generation)是阿里巴巴智能计算研究院研发的创新型音频驱动视频生成技术。该技术通过结合音频输入和静态人像照片,生成高度逼真且富有表现力的动态视频内容,值得一提的是目前阿里并没有开源这个项目,所以今天内容仅供学习(阿里的EMO一代到目前都还没有开源,所以等项目开源那是遥遥无期)欢迎大家再评论区讨论

2025-05-30 22:01:34 2495

原创 Diffusion Planner:扩散模型重塑自动驾驶路径规划(ICLR‘25)

2025年2月14日,清华大学AIR智能产业研究院联合毫末智行、中科院自动化所和香港中文大学团队,在ICLR 2025会议上发布了Diffusion Planner——一种创新性的基于Diffusion Transformer的自动驾驶规划模型架构。该系统联合建模周车运动预测与自车行为规划,显著提升了复杂场景下的决策效率与稳定性,克服了传统学习方法对后处理的依赖,推动了自动驾驶系统从“黑盒生成”走向“可控可调”的新时代。

2025-05-29 21:08:57 1868

原创 LLM-MPC混合架构:车载大语言模型用来增强自动驾驶系统

2025年,苏黎世研究团队在RSS2025会议上正式提出「LLM-MPC混合架构」,标志着大语言模型(LLM)在自动驾驶系统中的实用化迈出关键一步。该方案旨在解决传统深度学习模型在极端交通场景中泛化能力不足的问题。通过在车载终端边缘部署LLM,并融合模型预测控制(MPC)技术,系统在保持实时性与安全性的同时,推理速度提升10.5倍,为复杂环境中的高鲁棒决策提供全新范式。

2025-05-28 22:12:30 2046

原创 ANIMATEDIFF: 无需特定微调,实现个性化文本到图像扩散模型的动画化

为已有的高质量个性化的模型添加运动动态,使其生成动画(gif动图)随着文本到图像(T2I)扩散模型(如 Stable Diffusion)以及相应个性化技术(如 DreamBooth 和 LoRA)的发展,每个人都可以以较低的成本将自己的想象转化为高质量的图像。

2025-05-27 16:13:07 4226 2

原创 智源线虫登Nature子刊封面,具身智能迎新纪元

BAAIWorm天宝不仅是生物模拟的突破,更为具身智能与AGI研究提供了生物启发的新范式。它所倡导的闭环思维、系统整合和结构还原,为未来构建拥有真实感知、运动与决策能力的人工智能系统打下坚实基础。

2025-05-26 15:38:51 948

原创 DriveDreamer4D:将世界模型运用于自动驾驶

本文介绍24年11月来自极佳科技、中科院自动化所、理想汽车、北大和慕尼黑工大的论文“DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation”随着端到端自动驾驶系统的发展,对高质量闭环仿真系统的需求日益增长。现有的传感器建模方法(如 NeRF 和 3DGS)由于依赖训练数据分布,主要局限于前向驾驶场景,难以还原复杂动态,如变道、加减速等。

2025-05-25 11:35:15 1137

原创 DiffusionDrive:迈向生成式多模态端到端自动驾驶

DiffusionDrive 是由 地平线公司与华中科技大学于 2025年3月26日 联合发布的一项面向自动驾驶与智能决策的新型扩散模型方法。该模型基于条件扩散机制,实现了多模态、高鲁棒性的轨迹规划能力,标志着扩散模型在实际决策任务中的首次高效落地,相关研究成果在多个开放数据集上取得了领先性能。

2025-05-25 10:59:47 1371

原创 SpatialLM:开源3D视觉大模型,实时识别场景内容

在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。SpatialLM专门设计用来处理点云数据并进行空间理解。该模型通过分析来自不同来源的数据(如手机视频、RGBD图像、LiDAR传感器等),重建和理解三维环境。它能够将杂乱无章的3D点云转化为结构化的空间描述,包括房间布局、物体位置和尺寸、墙壁、窗户、门等关键信息。这种能力对于机器人在现实环境中的导航、避障、物品搬运等任务至关重要。

2025-05-24 22:01:09 1389

原创 Genie 2:打造无限可能的 3D 交互世界!

2024年12月,DeepMind 在美国发布了其最新的生成式世界建模系统 —— Genie 2。作为原始 Genie 模型的升级版本,Genie 2 能够仅通过一张图片与一句文本提示,如“一个可爱的机器人在森林中”,自动生成一个具有交互性的 3D 虚拟环境,具备物理一致性与无限延展性。该系统标志着在生成式 AI 与虚拟环境构建领域的一次重大突破。

2025-05-24 21:41:09 810

原创 UniVLA:让不同机器人说同一种“动作语言“

想象一下在不远的未来,通用机器人真正走进了日常生活。我们希望当你发出一条自然语言指令,无论是“帮我给猫喂食”,还是“帮我关掉台灯”,它都能够理解你的意图,并准确地完成动作——不依赖预定义的任务模板,也不受限于曾经训练过的数据分布。2025年5月,香港大学、OpenDriveLab和AgiBot的研究团队发表了一项突破性研究《Learning to Act Anywhere with Task-centric Latent Actions》(基于任务中心潜在动作的广域行动学习)。

2025-05-23 15:27:10 1008

原创 NaVILA:具身智能新发展,让机器人听懂“人话”

NaVILA(Navigation via Vision, Language, and Action)是英伟达(NVIDIA)与美国加利福尼亚大学于2024年年底联合提出的最新开源机器人导航框架。该框架的核心目标是让机器人“听懂人话,并在真实世界中完成任务”。NaVILA突破了传统机器人导航对地图和传感器的依赖,以更自然、更灵活的方式在人类环境中导航执行任务。NaVILA旨在解决视觉和语言导航问题。

2025-05-22 21:32:54 997

原创 AIGC:助力虚拟数字人飞速发展

AIGC(人工智能生成内容)以其强大的智能生成能力,正在引领一场前所未有的技术革命。在这场革命中,虚拟数字人作为AIGC的重要应用领域,正逐渐展现出其巨大的潜力和价值。

2025-05-21 14:36:15 495 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除