轻松部署、加速推理：TensorRT LLM 1.0 正式上线，全新易用的 Python 式运行

原创于 2025-10-11 10:01:46 发布 · 488 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

部署运行你感兴趣的模型镜像

更简单、更快速、更开放 —— TensorRT LLM 1.0 实现了开源、可扩展的简便部署体验，同时持续推动推理性能的技术边界。

该版本采用全新架构打造，基于模块化 Python 和 PyTorch 构建，显著简化了开发与部署流程，并在 NVIDIA 平台上持续提供业界领先的大语言模型（LLM）推理性能。

全新特性：

1. 支持 PyTorch 模型创作，加速开发进程

2. 模块化的 Python 运行时，灵活度更高

3. 稳定的 LLM API，实现无缝部署

点击“阅读原文”或扫描下方二维码观看直播回放，了解更多详情：

https://www.bilibili.com/video/BV1tyxyzHEgP/?spm_id_from=333.1387.homepage.video_card.click

TensorRT LLM 1.0 现已在 GitHub 正式发布，欢迎下载体验：https://github.com/NVIDIA/TensorRT-LLM/releases/tag/v1.0.0　

TensorRT LLM 快速入门指南：

https://nvidia.github.io/TensorRT-LLM/1.2.0rc0/overview.html

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NVIDIA AI 技术专区

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

NVIDIA 培训 | 限量 5 折首发——生成式 AI 全新 Professional 级别认证

11-27

933

NVIDIA 深度学习培训中心（DLI）发布全新 Professional 级别生成式 AI 认证科目NVIDIA-Certified Professional: Generative AI LLMs (NCP-GENL)，验证设计、训练和微调前沿大语言模型的技能。如果您是软件开发者，解决方案架构师，机器学习工程师，数据科学家或生成式 AI 的专家或资深爱好者，考取该项 NVIDIA 认证是您专业级生成式 AI 技能的有力证明，助力提升行业竞争力和拓展未来职业发展空间。可以通过重新参加考试保持认证资质。

博客

2025年NVIDIA AI Open Day

11-20

337

并以 verl 驱动的视觉语言模型强化学习为案例，为大家带来贯穿并行配置，内存估算到时序分析的强化学习工程方法论，展示我们在这一前沿领域的突破性成果。本次分享既涉及推理框架 TensorRT-LLM 在 DeepSeek-V3/R1 模型进行大规模专家并行部署的优化经验，也涵盖了 Blackwell 系列 GPU 通过 NVFP4 低精度进行推理部署来实现吞吐与模型精度兼顾的优化方案，以及针对面向中国市场的 Blackwell 架构 GPU 进行部署最佳实践指南。高级辅助驾驶汽车是 AI 领域新的热点。

博客

NVIDIA 培训 | AI 培训班新课发布，使用 Isaac 探索机器人仿真的巨大潜能

11-20

638

课程结束后，学员将具备亲手搭建机器人仿真环境的能力，并能将合成数据工作流集成到其中，构建可扩展的仿真优先开发流程。由 NVIDIA 深度学习培训中心（DLI）举办的 NVIDIA AI 培训班推出机器人仿真开发新课程，欢迎热衷于机器人开发的工程师、研究人员、爱好者积极报名，系统掌握仿真环境搭建与开发流程，全面提升实战能力。11 月 27 日：使用 NVIDIA Isaac 加速机器人开发（2025 新课程）：Python，Isaac Sim，OpenUSD，ROS 2，3D 工作流，CAD。

博客

使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理

11-13

901

管理此类系统需要同步扩展和调度合适的 Pod，了解每个组件不同的配置和资源需求，按特定的顺序启动，并根据网络拓扑结构将它们部署在集群中。在图 1 中，PodClique A 代表前端组件，B 和 C 代表预填充主节点和预填充工作节点，D 和 E 代表解码主节点和解码工作节点。而开发的，它具有足够的灵活性，可以自然地映射到任何现实世界的推理架构，从传统的单节点聚合推理到具有多个模型的代理式。组，例如预填充主节点或工作节点、解码主节点或工作节点，以及前端服务，每个组都有独立的配置和扩展逻辑。

博客

释放算力潜能：TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%

10-31

534

然而，IFB 在注意力模块中带来了负载不平衡的挑战，严重影响了系统性能。例如，一些 rank 可能在处理计算密集型的 context（上下文）阶段，而其他 rank 则在执行 generation（生成）阶段，从而形成 token 处理负载的巨大差异。由于各个 rank 间的工作负载可能是异构的，因此在给定迭代中的注意力模块的执行时间由负载最大的 rank 所限制。ADP 中的基本挑战在于，同一迭代中不同 rank 在处理的 token 负载可能差异很大，这使得整体执行时间会受限于负载最重的 rank。

博客

NVIDIA 培训 | 免费报名开发者日 AI 实战培训和认证考试

10-31

1055

进一步考取 NVIDIA 认证，面向开发者和 IT 专业人员，验证专业技能，发展职业生涯，解锁新机遇。参加 NVIDIA 认证，展示您的专业知识和技能，为个人推动职业发展，为企业增强竞争力。开发者日活动期间，面向国内开发者和 IT 专业人员，提供 3 门免费 Associate（初级）和 5 门Professional（中级）认证考试。以下 8 门认证，仅可选择一门参加。扫描以下二维码，访问 NVIDIA 认证中文官网，点击每一门认证科目介绍页面，查看详细的考试大纲、考前学习指南、推荐培训和更多资源。

博客

轻松部署、加速推理：TensorRT LLM 1.0 正式上线，全新易用的 Python 式运行

10-17

983

对于需要基于 PyTorch 实现自定义模型的开发者，TensorRT LLM 提供了清晰的迁移与注册流程。首先，若开发者已拥有 Hugging Face 生态中的 Torch 建模代码，可直接将其引入 TensorRT LLM 系统，同时完成关键组件的注册，确保模型能与框架的运行时模块正常交互，启动基础推理功能。。

博客

在 NVIDIA Isaac Lab 2.3 中使用全身控制和增强遥操作，简化机器人学习

10-17

1229

需要注意的是，在 DGX Spark 平台上运行的 Isaac Lab 2.3，暂不支持基于 XR/AVP 的遥操作功能，也不支持 Isaac Lab Mimic 中的模仿学习功能。然而，从选取可用于仿真的资产，到搭建并丰富环境多样性，再到统筹协调和分析大规模评估，用户需要在 Isaac Lab 手动整合多个组件，才能实现预期效果。灵巧动作映射指将人手姿态转换为机器人手部关节位置的过程，可实现高效的人机技能迁移，提升接触密集型手部任务的执行表现，并为训练稳健的操作策略生成丰富的演示数据。

博客

利用 Newton 引擎的神经动力学推进机器人技术的发展

10-17

968

NeRD 的训练数据集以任务无关的方式从仿真器中生成。随着机器人技术的进步，我们可以试图构想这样的机器人生命周期：每个机器人都配备从解析仿真中预训练的神经动力学模型，该模型可随着机器人与现实世界的交互不断微调，从而适应机器人的磨损和环境变化。这种以机器人为中心的状态表示，使 NeRD 在机器人运动中，当遇到未见过的空间位置时，仍然能够保持可靠预测，提升了模型的长时段预测精度。借助 NeRD 训练机器人，可实现高度稳定、准确且泛化的仿真，加速策略学习，并缩小仿真与现实的差距，确保机器人在真实世界的可靠部署。

博客

借助 NVIDIA Isaac Lab 和 Newton 训练四足机器人运动策略并对布料操作进行仿真

10-17

1232

在训练方面，Newton 提供基于张量的 API，将物理状态以兼容 PyTorch 和 NumPy 的数组形式呈现，支持高效批处理，并能与 Isaac Lab 等机器人学习框架无缝集成。慕尼黑工业大学利用 Newton 在仿真环境中重新运行已在实体机器人上验证过的灵巧操作策略，这是实现“仿真—现实”闭环的重要第一步。由于采用了通用接口和共享数据模型，无论运行的是 MuJoCo Warp、Disney Research 的 Kamino 求解器，还是自定义求解器，与 Newton 的交互方式始终保持一致。

博客

使用 NVIDIA Dynamo 部署 72B 模型提升 PD 分离性能

10-17

839

随着 Dynamo 0.4.0 的发布，新增的 AIConfigurator 这一新工具可根据用户的 SLO 和可用 GPU 资源，自动推荐 prefill-decode 自动推荐合适的 PD 分离配置和并行策略，并生成一键部署的脚本，简化部署难题；实际上在 Dynamo 发布之前，我们与 NVIDIA 的技术团队围绕 PD 分离已经进行了多次深入探讨和交流，在 2025 年 3 月下旬 Dynamo 正式发布后即开始部署，并于 2025 年 4 月正式开始使用。2025年 10月 13日。

博客

2025 云栖大会 AI 网络精彩内容回顾

10-17

453

NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X™ 以太网网络平台新增突破性产品，引入跨区域扩展打破建筑限制，成为继 scale-up 和 scale-out 之后的 AI 计算“第三大支柱”，可将极致性能与规模扩展至多分布式数据中心，组成十亿瓦级智能巨型 AI 超级工厂。NVIDIA Spectrum-X™ 以太网网络平台是首个专为 AI 设计的以太网网络，满足训练推理高性能需求，提供高效、可靠且可扩展的 AI 网络方案，可驱动全球最大 AI 工厂高效传输数据。

博客

行业协作共推 NVIDIA CPO 技术

10-17

751

每个光学子组件设计可支持 4.8 Tbps 的发送带宽和 4.8 Tbps 的接收带宽，成为实现超高容量光数据传输的关键基石，其核心在于三个基于 COUPE 技术的光引擎，每个引擎均可提供 1.6 Tbps 的发送和 1.6 Tbps 的接收吞吐量。通过全面协调整体方案设计的各个环节，NVIDIA 不仅整合了世界一流的硬件，还集成了可扩展、高可靠且高性能的光系统所需的各种技术，形成了一个完整的生态系统，满足了日益增长的数据吞吐量和节能设计需求，为未来光互连技术树立了新标准。

博客

光电一体化封装（CPO）技术引领数据中心网络向全光演进

10-17

401

聚焦于“光电一体化封装（CPO）技术如何引领数据中心网络向全光演进”的前沿趋势，随着生成式 AI 和超大规模 GPU 集群的快速普及，数据中心网络带宽、功耗与可靠性瓶颈日益突出。CPO 技术不仅能满足 AI 时代指数级增长的带宽需求，还将引领数据中心向全光网络演进，成为支撑 AI 普及和数字化转型的核心基石。欢迎深入阅读全文，了解 CPO 技术的最新进展和产业动态，把握未来数据中心网络发展的核心机遇，共同推动 AI 及数字化应用的创新与实践。生成式 AI 应用快速普及，推动数据中心对高性能网络的强烈需求。

博客

借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性

10-17

540

2018年，NVIDIA 推出了 NVLink Switch 技术，实现了在 8 个 GPU 的网络拓扑中每对 GPU 之间高达 300 GB/s 的 all-to-all 带宽，为多 GPU 计算时代的 scale-up 网络奠定了基础。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技术领域长达十年的深厚积累，结合 OCP MGX 机架架构及生态系统开放的生产部署标准，为超大规模数据中心提供了卓越的性能与全面的定制化选项。

博客

南北向网络：加速企业 AI 工作负载的关键

10-17

745

在 AI 智能体检索数据时，无论是从检索增强生成（RAG）系统的向量数据库中获取嵌入，还是从外部工具或数据库中调取与客户查询相关的信息，这些过程都需要快速、低延迟的南北向连接。在多个 AI 智能体同时运行（如协作处理复杂任务或响应多用户查询）的环境中，高效的南北向网络能够有效避免瓶颈，保障系统的流畅性与响应速度。在大规模多租户环境中，例如由 NVIDIA 云合作伙伴（NCP）运营的环境，采用具有物理连接网络的分离式架构可能是更优选择，这既能提供更高的有效带宽，又能实现租户之间及不同流量类型之间的严格隔离。

博客

如何利用跨区域网络将分布式数据中心连接成大型 AI 工厂

10-17

866

借助于跨区域网络的 Spectrum-XGS 以太网，不同规模和不同距离的多个数据中心能够被整合为一个统一的大型 AI 工厂，首次实现了在跨地域的多个独立的数据中心之间运行大规模单 AI 训练与推理任务所需的网络高性能。特别是，基于深度缓冲交换机的高延迟是其天然的弊病，此外，当缓冲被填满时，就必须进行排空。借助 Spectrum-XGS 以太网，AI 工厂之间可实现长距离连接，如 500 米以上的连接，这意味着实现园区内不同建筑之间的连接，或者跨越数十乃至数百英里，实现跨城市、跨州乃至跨国之间的连接。

博客

开发者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速实践

10-17

564

该项目创新性地将 NVIDIA DOCA GPUNetIO 技术与 MoE 模型推理加速相结合，通过 Expert-Kit 推理框架实现异构硬件资源的协同优化，让 DPU 专门处理网络密集型的专家权重分发和通信任务，使 CPU 得以专注于专家计算，从而在云计算、数据中心的 AI 推理平台中有效缓解集群时间维度（动态负载）与空间维度（不同设备协同）的资源利用率难题，为 DPU 在大模型推理加速领域提供了优化方向。我们最初是在研究异构设备的共享内存接触到的 NVIDIA DOCA。

博客

开发者故事 | 将 5G UPF 卸载至 DPU，实现边缘网络数据面加速

10-17

875

由刘松，雷玮琛，张琳，高铠炜，苑新婧组成的 FireMoth42 团队凭借其项目“基于 NVIDIA BlueField DPU 的 5G UPF 数据面加速方案”，成功将 5G 用户面功能（UPF）卸载到 DPU，实现了数据面的加速和低时延处理，为边缘网络架构带来新的可能。面对这些挑战，团队采取了多管齐下的策略。首先，他们深入查阅了 DOCA 官方文档和 SDK 示例，积极向 NVIDIA 导师团队请教，在导师的帮助下逐步厘清了开发框架中的多个关键概念，加速了团队对 DOCA Flow 架构的理解。

博客

NVIDIA 培训 | 每月小讲堂：Isaac Sim 机器人开发核心概念

10-17

689

10 月 15 日晚 7 点，NVIDIA 深度学习培训中心（DLI）每月小讲堂将在线讲解《使用 Isaac Sim 模拟机器人》课程，聚焦 NVIDIA Isaac Sim 平台，深入讲解机器人仿真的核心概念与应用实践。通过学习 Isaac Sim 、 Isaac Lab 和 Isaac ROS 在线自主培训课程，从根本上了解机器人开发的核心概念，并探索仿真和机器人学习方面的必备工作流。），备注“机器人小讲堂”，推荐您加入直播交流群，及时获得更多资讯和问题解答。10 月 22 日、12 月 10 日。