- 博客(131)
- 收藏
- 关注
原创 2025年NVIDIA AI Open Day
并以 verl 驱动的视觉语言模型强化学习为案例,为大家带来贯穿并行配置,内存估算到时序分析的强化学习工程方法论,展示我们在这一前沿领域的突破性成果。本次分享既涉及推理框架 TensorRT-LLM 在 DeepSeek-V3/R1 模型进行大规模专家并行部署的优化经验,也涵盖了 Blackwell 系列 GPU 通过 NVFP4 低精度进行推理部署来实现吞吐与模型精度兼顾的优化方案,以及针对面向中国市场的 Blackwell 架构 GPU 进行部署最佳实践指南。高级辅助驾驶汽车是 AI 领域新的热点。
2025-11-20 14:06:06
288
原创 NVIDIA 培训 | AI 培训班新课发布,使用 Isaac 探索机器人仿真的巨大潜能
课程结束后,学员将具备亲手搭建机器人仿真环境的能力,并能将合成数据工作流集成到其中,构建可扩展的仿真优先开发流程。由 NVIDIA 深度学习培训中心(DLI)举办的 NVIDIA AI 培训班推出机器人仿真开发新课程,欢迎热衷于机器人开发的工程师、研究人员、爱好者积极报名,系统掌握仿真环境搭建与开发流程,全面提升实战能力。11 月 27 日:使用 NVIDIA Isaac 加速机器人开发(2025 新课程):Python,Isaac Sim,OpenUSD,ROS 2,3D 工作流,CAD。
2025-11-20 14:05:00
609
原创 使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理
管理此类系统需要同步扩展和调度合适的 Pod,了解每个组件不同的配置和资源需求,按特定的顺序启动,并根据网络拓扑结构将它们部署在集群中。在图 1 中,PodClique A 代表前端组件,B 和 C 代表预填充主节点和预填充工作节点,D 和 E 代表解码主节点和解码工作节点。而开发的,它具有足够的灵活性,可以自然地映射到任何现实世界的推理架构,从传统的单节点聚合推理到具有多个模型的代理式。组,例如预填充主节点或工作节点、解码主节点或工作节点,以及前端服务,每个组都有独立的配置和扩展逻辑。
2025-11-13 14:04:53
880
原创 释放算力潜能:TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%
然而,IFB 在注意力模块中带来了负载不平衡的挑战,严重影响了系统性能。例如,一些 rank 可能在处理计算密集型的 context(上下文)阶段,而其他 rank 则在执行 generation(生成)阶段,从而形成 token 处理负载的巨大差异。由于各个 rank 间的工作负载可能是异构的,因此在给定迭代中的注意力模块的执行时间由负载最大的 rank 所限制。ADP 中的基本挑战在于,同一迭代中不同 rank 在处理的 token 负载可能差异很大,这使得整体执行时间会受限于负载最重的 rank。
2025-10-31 09:23:15
519
原创 NVIDIA 培训 | 免费报名开发者日 AI 实战培训和认证考试
进一步考取 NVIDIA 认证,面向开发者和 IT 专业人员,验证专业技能,发展职业生涯,解锁新机遇。参加 NVIDIA 认证,展示您的专业知识和技能,为个人推动职业发展,为企业增强竞争力。开发者日活动期间,面向国内开发者和 IT 专业人员,提供 3 门免费 Associate(初级)和 5 门Professional(中级)认证考试。以下 8 门认证,仅可选择一门参加。扫描以下二维码,访问 NVIDIA 认证中文官网,点击每一门认证科目介绍页面,查看详细的考试大纲、考前学习指南、推荐培训和更多资源。
2025-10-31 09:20:26
1030
1
原创 轻松部署、加速推理:TensorRT LLM 1.0 正式上线,全新易用的 Python 式运行
对于需要基于 PyTorch 实现自定义模型的开发者,TensorRT LLM 提供了清晰的迁移与注册流程。首先,若开发者已拥有 Hugging Face 生态中的 Torch 建模代码,可直接将其引入 TensorRT LLM 系统,同时完成关键组件的注册,确保模型能与框架的运行时模块正常交互,启动基础推理功能。。
2025-10-17 12:09:40
972
原创 在 NVIDIA Isaac Lab 2.3 中使用全身控制和增强遥操作,简化机器人学习
需要注意的是,在 DGX Spark 平台上运行的 Isaac Lab 2.3,暂不支持基于 XR/AVP 的遥操作功能,也不支持 Isaac Lab Mimic 中的模仿学习功能。然而,从选取可用于仿真的资产,到搭建并丰富环境多样性,再到统筹协调和分析大规模评估,用户需要在 Isaac Lab 手动整合多个组件,才能实现预期效果。灵巧动作映射指将人手姿态转换为机器人手部关节位置的过程,可实现高效的人机技能迁移,提升接触密集型手部任务的执行表现,并为训练稳健的操作策略生成丰富的演示数据。
2025-10-17 12:08:49
1200
原创 利用 Newton 引擎的神经动力学推进机器人技术的发展
NeRD 的训练数据集以任务无关的方式从仿真器中生成。随着机器人技术的进步,我们可以试图构想这样的机器人生命周期:每个机器人都配备从解析仿真中预训练的神经动力学模型,该模型可随着机器人与现实世界的交互不断微调,从而适应机器人的磨损和环境变化。这种以机器人为中心的状态表示,使 NeRD 在机器人运动中,当遇到未见过的空间位置时,仍然能够保持可靠预测,提升了模型的长时段预测精度。借助 NeRD 训练机器人,可实现高度稳定、准确且泛化的仿真,加速策略学习,并缩小仿真与现实的差距,确保机器人在真实世界的可靠部署。
2025-10-17 12:07:25
959
原创 借助 NVIDIA Isaac Lab 和 Newton 训练四足机器人运动策略并对布料操作进行仿真
在训练方面,Newton 提供基于张量的 API,将物理状态以兼容 PyTorch 和 NumPy 的数组形式呈现,支持高效批处理,并能与 Isaac Lab 等机器人学习框架无缝集成。慕尼黑工业大学利用 Newton 在仿真环境中重新运行已在实体机器人上验证过的灵巧操作策略,这是实现“仿真—现实”闭环的重要第一步。由于采用了通用接口和共享数据模型,无论运行的是 MuJoCo Warp、Disney Research 的 Kamino 求解器,还是自定义求解器,与 Newton 的交互方式始终保持一致。
2025-10-17 12:06:31
1173
原创 使用 NVIDIA Dynamo 部署 72B 模型提升 PD 分离性能
随着 Dynamo 0.4.0 的发布,新增的 AIConfigurator 这一新工具可根据用户的 SLO 和 可用 GPU 资源,自动推荐 prefill-decode 自动推荐合适的 PD 分离配置和并行策略,并生成一键部署的脚本,简化部署难题;实际上在 Dynamo 发布之前,我们与 NVIDIA 的技术团队围绕 PD 分离已经进行了多次深入探讨和交流,在 2025 年 3 月下旬 Dynamo 正式发布后即开始部署,并于 2025 年 4 月正式开始使用。2025年 10月 13日。
2025-10-17 12:04:59
812
原创 2025 云栖大会 AI 网络精彩内容回顾
NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X™ 以太网网络平台新增突破性产品,引入跨区域扩展打破建筑限制,成为继 scale-up 和 scale-out 之后的 AI 计算“第三大支柱”,可将极致性能与规模扩展至多分布式数据中心,组成十亿瓦级智能巨型 AI 超级工厂。NVIDIA Spectrum-X™ 以太网网络平台是首个专为 AI 设计的以太网网络,满足训练推理高性能需求,提供高效、可靠且可扩展的 AI 网络方案,可驱动全球最大 AI 工厂高效传输数据。
2025-10-17 12:03:22
439
原创 行业协作共推 NVIDIA CPO 技术
每个光学子组件设计可支持 4.8 Tbps 的发送带宽和 4.8 Tbps 的接收带宽,成为实现超高容量光数据传输的关键基石,其核心在于三个基于 COUPE 技术的光引擎,每个引擎均可提供 1.6 Tbps 的发送和 1.6 Tbps 的接收吞吐量。通过全面协调整体方案设计的各个环节,NVIDIA 不仅整合了世界一流的硬件,还集成了可扩展、高可靠且高性能的光系统所需的各种技术,形成了一个完整的生态系统,满足了日益增长的数据吞吐量和节能设计需求,为未来光互连技术树立了新标准。
2025-10-17 12:01:46
741
原创 光电一体化封装(CPO)技术引领数据中心网络向全光演进
聚焦于“光电一体化封装(CPO)技术如何引领数据中心网络向全光演进”的前沿趋势,随着生成式 AI 和超大规模 GPU 集群的快速普及,数据中心网络带宽、功耗与可靠性瓶颈日益突出。CPO 技术不仅能满足 AI 时代指数级增长的带宽需求,还将引领数据中心向全光网络演进,成为支撑 AI 普及和数字化转型的核心基石。欢迎深入阅读全文,了解 CPO 技术的最新进展和产业动态,把握未来数据中心网络发展的核心机遇,共同推动 AI 及数字化应用的创新与实践。生成式 AI 应用快速普及,推动数据中心对高性能网络的强烈需求。
2025-10-17 11:53:49
386
原创 借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性
2018年,NVIDIA 推出了 NVLink Switch 技术,实现了在 8 个 GPU 的网络拓扑中每对 GPU 之间高达 300 GB/s 的 all-to-all 带宽,为多 GPU 计算时代的 scale-up 网络奠定了基础。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技术领域长达十年的深厚积累,结合 OCP MGX 机架架构及生态系统开放的生产部署标准,为超大规模数据中心提供了卓越的性能与全面的定制化选项。
2025-10-17 11:51:17
530
原创 南北向网络:加速企业 AI 工作负载的关键
在 AI 智能体检索数据时,无论是从检索增强生成(RAG)系统的向量数据库中获取嵌入,还是从外部工具或数据库中调取与客户查询相关的信息,这些过程都需要快速、低延迟的南北向连接。在多个 AI 智能体同时运行(如协作处理复杂任务或响应多用户查询)的环境中,高效的南北向网络能够有效避免瓶颈,保障系统的流畅性与响应速度。在大规模多租户环境中,例如由 NVIDIA 云合作伙伴(NCP)运营的环境,采用具有物理连接网络的分离式架构可能是更优选择,这既能提供更高的有效带宽,又能实现租户之间及不同流量类型之间的严格隔离。
2025-10-17 11:35:00
740
原创 如何利用跨区域网络将分布式数据中心连接成大型 AI 工厂
借助于跨区域网络的 Spectrum-XGS 以太网,不同规模和不同距离的多个数据中心能够被整合为一个统一的大型 AI 工厂,首次实现了在跨地域的多个独立的数据中心之间运行大规模单 AI 训练与推理任务所需的网络高性能。特别是,基于深度缓冲交换机的高延迟是其天然的弊病,此外,当缓冲被填满时,就必须进行排空。借助 Spectrum-XGS 以太网,AI 工厂之间可实现长距离连接,如 500 米以上的连接,这意味着实现园区内不同建筑之间的连接,或者跨越数十乃至数百英里,实现跨城市、跨州乃至跨国之间的连接。
2025-10-17 11:33:28
856
原创 开发者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速实践
该项目创新性地将 NVIDIA DOCA GPUNetIO 技术与 MoE 模型推理加速相结合,通过 Expert-Kit 推理框架实现异构硬件资源的协同优化,让 DPU 专门处理网络密集型的专家权重分发和通信任务,使 CPU 得以专注于专家计算,从而在云计算、数据中心的 AI 推理平台中有效缓解集群时间维度(动态负载)与空间维度(不同设备协同)的资源利用率难题,为 DPU 在大模型推理加速领域提供了优化方向。我们最初是在研究异构设备的共享内存接触到的 NVIDIA DOCA。
2025-10-17 11:32:35
552
原创 开发者故事 | 将 5G UPF 卸载至 DPU,实现边缘网络数据面加速
由刘松,雷玮琛,张琳,高铠炜,苑新婧组成的 FireMoth42 团队凭借其项目“基于 NVIDIA BlueField DPU 的 5G UPF 数据面加速方案”,成功将 5G 用户面功能(UPF)卸载到 DPU,实现了数据面的加速和低时延处理,为边缘网络架构带来新的可能。面对这些挑战,团队采取了多管齐下的策略。首先,他们深入查阅了 DOCA 官方文档和 SDK 示例,积极向 NVIDIA 导师团队请教,在导师的帮助下逐步厘清了开发框架中的多个关键概念,加速了团队对 DOCA Flow 架构的理解。
2025-10-17 11:30:41
868
原创 NVIDIA 培训 | 每月小讲堂:Isaac Sim 机器人开发核心概念
10 月 15 日晚 7 点,NVIDIA 深度学习培训中心(DLI)每月小讲堂将在线讲解《使用 Isaac Sim 模拟机器人》课程,聚焦 NVIDIA Isaac Sim 平台,深入讲解机器人仿真的核心概念与应用实践。通过学习 Isaac Sim 、 Isaac Lab 和 Isaac ROS 在线自主培训课程,从根本上了解机器人开发的核心概念,并探索仿真和机器人学习方面的必备工作流。),备注“机器人小讲堂”,推荐您加入直播交流群,及时获得更多资讯和问题解答。10 月 22 日、12 月 10 日。
2025-10-17 11:28:51
672
原创 探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率
因为当开启PP时,会通过1f1b的调度策略有一个预热的过程,对于n个pprank,虽然每个卡上的模型只有1/n份,对应一个batch也只有1/n的激活量,但是峰值显存上不同的 PP_rank 分别会有n, n-1, ... , 1个batch的激活量,对于PPrnk0来说,其峰值显存是 b*s*d*(1/n)*n =b*s*d 未发生变化。可以简单将显存分为静态显存和动态显存。从直觉上分析,如果显存允许的话,并行程度越低,通信开销越小,模型训练效率越高,这个直觉大部分情况下与实际情况相符,此处不展开讨论。
2025-10-11 10:07:12
844
原创 轻松部署、加速推理:TensorRT LLM 1.0 正式上线,全新易用的 Python 式运行
该版本采用全新架构打造,基于模块化 Python 和 PyTorch 构建,显著简化了开发与部署流程,并在 NVIDIA 平台上持续提供业界领先的大语言模型(LLM)推理性能。更简单、更快速、更开放 —— TensorRT LLM 1.0 实现了开源、可扩展的简便部署体验,同时持续推动推理性能的技术边界。1. 支持 PyTorch 模型创作,加速开发进程。2. 模块化的 Python 运行时,灵活度更高。3. 稳定的 LLM API,实现无缝部署。点击“阅读原文”或扫描下方二维码观看。
2025-10-11 10:01:46
485
原创 扩展 TensorRT-LLM 中的专家并行度:大规模 EP 的设计与实现
最后,本博客包含针对 Grace Blackwell 机架式系统的详细实现方式,例如使用 Grace Blackwell 机架式系统跨 GPU 连接的通信组件,以及使用 Grace CPU 与 Blackwell GPU 间高带宽 C2C 连接的 MoE 权重加载 / 重新分配模块等。基于所有 rank(或专家)传送 Token 数的情况下,失衡比率的计算方式为(最大值 − 均值) / 均值,表示最热门 rank(或专家)接收的过多工作负载。我们的内核采用与 NCCL 的 LL128 原语类似的通信方法。
2025-10-11 09:59:44
828
原创 NVIDIA 培训 | 学习数字孪生系列课程,为物理 AI 时代做好准备
NVIDIA 深度学习培训中心(DLI)发布全新物理 AI 数字孪生学习路径,加速数字孪生开发之旅。从基础概念到使用 Omniverse 和 OpenUSD 开发自定义应用,利用数字孪生训练并优化物理 AI 系统,通过此学习路径的课程帮助您系统掌握数字孪生的核心技术和实践方法。学习路径包含,并包含 OpenUSD 和机器人开发学习路径,以及 NVIDIA 认证 – OpenUSD 开发(NCP-OUSD)介绍,支持您系统学习和验证您的专业技能。2 学时 | 中文。
2025-10-11 09:55:48
956
原创 全新 Qwen3-Next 开源模型预览:MoE 架构在 NVIDIA 平台实现更高精度与加速并行处理速度
每个模型总参数规模达 800 亿,但凭借其稀疏 MoE 结构,每个 Token 仅激活 30 亿参数,从而以小模型的效率实现了大模型的强大性能。在 Open Router 上体验:Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct,或者从 Hugging Face 下载:Qwen3-Next-80B-A3B-Thinking 和 Qwen3-Next-80B-A3B-Instruct。我们与社区共同协作,推动 AI 的发展。
2025-09-15 21:55:25
1075
原创 NVIDIA 培训 | 学习限时免费的数据科学课程,高效加速工作流
NeMo Curator 是一款 GPU 加速的数据管理工具,可大规模处理文本、图像和视频数据,提升生成式 AI 模型的训练准确性,并提供预构建流程用于生成合成数据,实现模型的定制与评估。使用 NVIDIA cuML 的 GPU 加速库,实现并优化可扩展的无监督学习技术,如 k-means 和 HDBSCAN,在数百万行数据集上评估聚类性能,学习如何在生产环境中部署。扫描下方二维码,访问 NVIDIA 认证中文官网,点击每一门认证科目介绍页面,查看详细的考试大纲、考前学习指南、推荐培训和更多资源。
2025-09-05 14:36:18
945
原创 Hot Chips 大会热门主题:各种规模的推理、网络和 AI 创新都源于 NVIDIA
全球已有数亿台的 GPU 运行 CUDA,从 NVIDIA Blackwell 架构规模的系统到搭载 GeForce RTX 和 NVIDIA RTX PRO 的 PC 和工作站,包括由 NVIDIA GB10 提供支持的 NVIDIA DGX Spark(在 Skende 的会议中讨论过的)也即将发布。DGX Spark 用小巧的机身提供了强大的性能和功能,使开发者、研究人员、数据科学家和学生能够在桌面上突破生成式 AI 的界限,加速各行业的工作负载。
2025-09-05 14:33:21
1084
原创 利用 CPO 技术扩展 AI 工厂,提高能效
敬请期待本博客的第二部分,我们将深入探讨 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平台的核心——硅光引擎的架构与工作原理,揭示推动下一代光连接成为现实的关键创新与工程突破。大量的独立模块和连接不仅推高了系统功耗和组件数量,还直接影响了链路的可靠性,随着 AI 部署规模的不断扩大,这些问题将带来持续的运营挑战。在这篇博客中,我们将探讨 NVIDIA 的网络创新如何通过 CPO 技术,为大型 AI 工厂带来显著的能效提升和更强的可靠性。
2025-09-05 14:30:29
899
原创 NVIDIA 推出 Spectrum-XGS 以太网,助力分布式数据中心迈入十亿瓦级 AI 超级工厂
凭借先进的、自动调节的远距离拥塞控制、精准延迟管理及端到端遥测技术,Spectrum-XGS 以太网将 NVIDIA 集合通信库性能提升了近一倍,加速了多 GPU 和多节点的通信性能,实现了可预测异地 AI 集群的性能。跨区域扩展(scale-across)成为了继纵向扩展(scale-up)和横向扩展(scale-out)之后的 AI 计算“第三大支柱”,能够将 Spectrum-X 以太网的极致性能和规模扩展至多个分布式数据中心,将它们组成具有十亿瓦级的智能巨型 AI 超级工厂。
2025-09-05 14:28:19
418
原创 迎接十亿瓦数据中心时代
投入端到端集成的供应商能提供更优的延迟和吞吐量。SONiC 作为在超大规模数据中心中得到强化的开源网络操作系统,消除了许可限制和供应商锁定,支持高度定制化,但操作人员仍会选择专为 AI 性能需求设计的硬件和软件捆绑方案。基于 Spectrum-4 ASIC 的 SN5610 交换机支持高达 800 Gb/s 的端口速度,并通过 NVIDIA 的拥塞控制技术,在规模化场景下可保持 95% 的数据吞吐量。如今,最前沿的技术却转向了服务器机柜内数百公斤的铜背板,液冷通路的设计、定制的总线架以及铜背板的设计。
2025-09-05 14:27:16
1014
原创 NVIDIA Holoscan 平台与 Rivermax 技术助力艾迪普树立实时图形图像渲染新标杆
以艾迪普的实时图形图像渲染引擎 IDPRE 为例,在实际应用中,在 IDPRE 中采用 Rivermax 技术和 BlueField-3 DPU 硬件,利用 100G 网络接口和 PCIe 16X 高速传输带宽,大幅加速了网络传输和数据包处理。在泛媒体在线包装系统项目中,艾迪普的客户提出系统 IP 化升级需求,要求采用通用服务器加 IP 网卡虚拟化架构,以确保板卡传输带宽能支持未来 4K/8K 超高清传输升级,从而降低系统链路复杂度,并实现更高效的集中调度管理与成本控制。
2025-09-05 14:25:14
1010
原创 CoreWeave 借助 NVIDIA BlueField DPU 开创数据中心新范式
凭借将 VAST Data 的存储解决方案与NVIDIA BlueField DPU相结合这一创新方法,CoreWeave 已跻身领先的 AI 云服务提供商之列,并通过对创新技术的不懈追求来满足未来的客户需求,同时应对日益复杂的 AI 工作负载。CoreWeave 使用 NVIDIA Quantum-2 InfiniBand 网络平台作为其 GPU 到 GPU 的 AI 计算网络,不仅实现了低延迟、高带宽、高效数据传输和性能隔离,还确保为要求苛刻的 AI 工作负载提供极佳的性能和可扩展性。
2025-09-05 14:22:50
752
原创 开发者故事 | 构建高性能 DPU 数据面开发框架
基于以往 DPU 的开发经验,Axio 团队发现 DPU 数据面和 CPU 或 GPU 数据面的设计原则存在显著差异,采用传统的数据面设计方法开发 DPU 加速的应用程序会导致性能下降。依托 DOCA 社区的帮助,团队仔细阅读底层代码库的文档,逐步验证每一个 API 调用的正确性。谈及未来 DPU 领域的发展前景,黄昕阳指出:“在 AI 时代,DPU 凭借其独特的生态位展现出巨大潜力——不仅能作为加速器优化 GPU 间通信,还可以充当控制器实现以 AI 为中心的智能组网,这让我对 DPU 的未来充满信心。
2025-09-05 14:04:35
535
原创 开发者故事 | 构建 AI 驱动的 DPU 实时网络安全防御系统
谈及项目创作的灵感来源,队长崔湛林分享道:“基于对市场需求的理解和前沿技术的探索,我们意识到在 AI 时代加强网络安全的迫切性,由此萌生了开发一个运行在 DPU 上的实时网络安全系统的想法。印象最深刻的是当遇到开发挑战时,通过队员的共同努力和导师团队的专业指导破解了技术瓶颈,这种团队协作攻破难题的感觉令人难忘。另外,我们也受邀去 NVIDIA 在北京的办公室参加颁奖典礼,现场体验了 NVIDIA 在 AI 上的强大生态,以及在硬件、软件上的突破和创新,加强了我们在应用层做开发的信心。
2025-09-05 13:58:40
1042
原创 DeepSeek R1 MTP 在 TensorRT-LLM 中的实现与优化
TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速。我们在之前的博客[1] 中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。受先前研究工作的启发,MTP 用于辅助 DeepSeek-V3 的训练,在主模型末尾添加额外的 MTP 模块,并使用这些模块预测更多 token。
2025-09-05 11:46:07
1054
原创 NVIDIA Nemotron Nano 2 及 Nemotron 预训练数据集 v1
Nemotron-CC-v2:此前研究表明,从高质量英文网页爬取数据生成的合成多样化问答数据,能显著提升大语言模型 (LLM) 通用能力(如 MMLU 等基准测试显示)。如“NVIDIA Nemotron Nano 2:准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中,实现了与领先的同规模开源模型 Qwen3-8B 相当乃至更佳的准确率,吞吐量较后者至高提升。此外,该数据集还包含。
2025-08-26 16:55:09
1203
原创 TensorRT-LLM 中的分离式服务
在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。LLM 推理通常分为上下文 (prefill) 和生成 (decode) 两个阶段。在上下文阶段,模型会根据提示词计算键值 (KV) 缓存,而在生成阶段,则利用这些缓存值逐步生成每一个 Token。这两个阶段在计算特性上存在显著差异。
2025-08-26 16:52:19
736
原创 NVIDIA 培训 | 全新 OpenUSD 认证考试科目现已开放报名
NVIDIA 深度学习培训中心(DLI)发布全新 OpenUSD 认证考试科目(NVIDIA-Certified Professional):OpenUSD Development(NCP-OUSD),验证您使用 OpenUSD 构建、维护和优化 3D 内容创作工作流的专业能力。在考试平台预约后,如需更改时段或科目,可取消预约,使用同一考试券(Voucher)进行再次预约。,访问 NVIDIA 中文认证官网,点击每一门认证科目介绍,查看详细的考试大纲、学习指南、推荐课程资源和常见问题等。
2025-08-26 16:45:40
997
原创 Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自动扩展和实时可观察性
在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算内满足用户定义的 SLO,并最大化每个 GPU 的吞吐量,然后自动生成可无缝部署到 Dynamo 的后端配置。
2025-08-26 16:39:31
1077
原创 NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,实现 150 万 TPS 推理
如需使用,请访问 RTX AI Garage。这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平台上实现第零天 (Day 0) 性能提升。
2025-08-26 16:35:09
812
原创 CrowdStrike、Uber 和 Zoom 等行业先驱利用 NVIDIA Nemotron 和 Cosmos 推理模型,为企业和物理 AI 应用构建更智能的智能体
借助这些新模型,AI 智能体能够提高思考深度和工作效率,从而探索更广泛的选项、加速研究并在设定时限内提供更明智的结果。这意味着能够以更低成本取得更好的结果。Cosmos Reason 经过量身定制,可作为机器人视觉语言动作 (VLA) 模型的推理主干,或为机器人和智能汽车训练数据评论和注释提供支持,并赋予运行时视觉 AI 智能体在工厂或城市等环境中对时空理解和物理操作的推理能力。但是,非推理的 VLM 缺乏理解现实世界并与之交互的能力,意味着它们既无法处理不确定性或新奇的情景,也无法执行复杂的多步骤任务。
2025-08-19 16:28:54
895
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅