自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

专注于人工智能领域的小何尚

读万卷书, 走万里路。专注于最新最热的技术,读最好最细的文章。

  • 博客(602)
  • 资源 (4)
  • 收藏
  • 关注

原创 NVIDIA GTC 开发者社区Watch Party资料汇总

以下是所有涉及到的工具中文解读汇总,希望可以帮到各位7. NVIDIA nvmath-python:高性能数学库的Pyth

2025-03-24 09:34:04 2123

原创 NVIDIA 开发者社区第十一届Sky Hackathon训练营实验手册---AWS Sagemaker AI部分

在这部分实验中,我们将利用AWS Sagemaker下载并部署NIM。

2025-02-15 20:56:38 1693

原创 162个例子告诉你在NVIDIA开发者社区夏令营能学到什么

NVIDIA开发者社区AI-Agent夏令营作品合集, 通过这162个例子,向大家展示了在2024 NVIDIA开发者训练营中开发者朋友们用NVIDIA NIM做了什么样的优秀作品

2024-08-21 09:42:56 3236 3

原创 2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)

2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)

2024-08-04 19:04:22 5330 1

原创 NVIDIA Chat With RTX安装使用教程

世界各地每天有数百万人使用聊天机器人,由基于 NVIDIA GPU 的云服务器提供支持。现在,这些突破性工具即将登陆由 NVIDIA RTX 提供支持的 Windows PC,以实现本地、快速、自定义的生成 AI。Chat with RTX 是一个技术演示,现已免费下载,可让用户使用自己的内容个性化聊天机器人,并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本(具有至少 8GB 显存和 VRAM)加速。

2024-02-23 05:16:12 10725 19

原创 仅需一部智能手机,在NVIDIA Isaac Sim中重建真实场景:终极实战指南

摘要: 借助智能手机和NVIDIA Isaac Sim,可实现真实场景的快速3D重建与机器人仿真。工作流分为四步: 手机拍摄:确保光照均匀、稳定对焦,拍摄高重叠率照片。 COLMAP重建:生成稀疏3D点云与相机位姿,为后续密集重建提供基础。 3DGUT训练:通过MCMC优化将稀疏点云转化为高质量3D高斯溅射模型,并导出为USDZ格式。 Isaac Sim部署:导入场景,添加物理地面和阴影代理,完成机器人仿真环境搭建。 该方案简化了传统3D建模流程,适用于机器人导航、虚拟测试等应用场景。

2025-11-04 14:46:54 841

原创 NVIDIA 中国开发者日 | 三场技术分论坛科技演讲一览,活动报名持续热招中

NVIDIA中国开发者日2025将于11月14日在苏州举办,聚焦大语言模型、机器人/物理AI及开发工具三大领域。技术分论坛将带来精彩议题:大语言模型专场分享GPU优化、SGLang框架应用等;机器人专场介绍Cosmos平台、人形机器人落地实践;开发工具专场探讨GPU计算演进、CuTeDSL应用等前沿话题。大会面向全国开发者开放注册,提供与行业领袖交流、获取最新技术动态的机会。

2025-11-04 13:42:57 1225

原创 在NVIDIA Jetson上实现端到端机器人学习:HuggingFace LeRobot实战指南

摘要: 本文详细介绍了在NVIDIA Jetson设备上运行HuggingFace LeRobot机器人学习框架的完整流程。内容包括硬件要求(推荐Jetson AGX Orin)、JetPack 6环境配置、存储优化建议,以及真实机器人(以Koch v1.1为例)的端到端工作流程:从硬件连接、音频配置、udev规则设置,到数据记录、模型训练和策略评估。特别强调了NVMe SSD存储的重要性,并提供了内存优化、容器配置等实用技巧,帮助开发者在资源受限的边缘设备上实现高效的机器人学习。

2025-10-24 09:53:33 1098 1

原创 在NVIDIA Jetson上部署OpenVLA:视觉-语言-动作模型的微调与部署指南

本教程详细介绍了在NVIDIA Jetson平台上部署和优化OpenVLA视觉-语言-动作模型的完整流程。主要内容包括:1)VLA模型架构解析,说明其基于Llama-7B构建,通过动作令牌控制机器人;2)量化和性能验证,在Jetson AGX Orin上测试不同量化方式(FP16/FP8/INT4)的准确率和延迟;3)提供简洁的推理API代码示例;4)通过MimicGen生成模拟训练数据并转换为RLDS格式的工作流程。教程还包含在积木堆叠任务上达到85%准确率的实际验证结果,为具身AI的部署提供了实用参考。

2025-10-24 09:09:34 765

原创 启用可扩展的AI驱动分子动力学模拟

AI驱动的分子动力学模拟:构建ML-IAP-Kokkos接口 本文介绍了如何构建ML-IAP-Kokkos接口,将基于PyTorch的机器学习原子间势(MLIPs)集成到LAMMPS分子动力学软件中。该接口由NVIDIA和多个国家实验室合作开发,支持GPU加速的大规模模拟。文章详细说明了构建步骤: 环境准备:需要LAMMPS(Kokkos/MPI/ML-IAP支持)、Python环境和PyTorch模型 实现MLIAPUnified抽象类,定义计算力的核心函数 通过示例展示了LAMMPS与Python模型的

2025-10-23 10:33:45 1122

原创 一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体

摘要:本文介绍如何在一小时内使用NVIDIA Nemotron Nano v2构建自然语言Bash智能体,仅需约200行Python代码。系统由两个核心组件构成:Bash类负责命令执行和目录管理,智能体通过Nemotron模型理解用户意图并执行操作。文章详细展示了Bash工具类的实现代码,包括命令白名单、执行逻辑和JSON Schema转换方法,并介绍了如何通过系统提示定义智能体行为。最后还提到可使用LangGraph进一步简化设计。该智能体无需用户编写命令,通过自然语言交互即可完成Bash操作。

2025-10-23 10:15:59 503

原创 使用NVIDIA Nemotron构建日志分析多智能体自我修正RAG系统

本文介绍了如何利用NVIDIA Nemotron构建一个多智能体自我修正的RAG系统,用于解决复杂日志分析挑战。系统采用混合检索、智能重排序和相关性评分等技术,通过多智能体协同工作实现日志解析、查询修正和答案生成。文章详细阐述了系统架构、关键组件和实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短至数秒,为开发运维团队提供有力支持。

2025-10-22 20:44:57 596

原创 AI创新的火花:NVIDIA DGX Spark开箱与深度解析

NVIDIA DGX Spark开箱评测:这款被称为"全球最小AI超级计算机"的设备,将1PetaFLOP的AI性能浓缩于150mm×150mm×50.5mm的紧凑机身中。搭载GB10 Grace Blackwell Superchip、128GB统一内存和200Gbps网卡,可处理200B参数的AI模型。约4000美元的定价让数据中心级算力触手可及,支持本地AI模型开发、微调和边缘计算应用,为AI创新提供了强大平台。

2025-10-22 20:42:29 1505

原创 AI创新的火花:NVIDIA DGX Spark开箱与深度解析

摘要 NVIDIA DGX Spark是一款颠覆性的桌面级AI超级计算机,将1 PetaFLOP算力浓缩于仅1.2公斤的机身中。其核心采用Grace Blackwell架构GB10芯片,集成20核Arm CPU和Blackwell GPU,配备128GB统一内存和4TB NVMe存储,支持200B参数模型的本地处理。凭借200Gbps网络和完整AI软件栈,DGX Spark为开发者提供从模型开发到边缘智能的一站式解决方案,以4000美元价格打破AI算力门槛,有望加速AI创新普及。

2025-10-21 17:21:55 895 7

原创 如何通过共享内存和寄存器溢出优化CUDA内核性能

CUDA 13.0引入共享内存寄存器溢出优化 当CUDA内核寄存器需求超过硬件限制时,传统做法会溢出到高延迟的本地内存。CUDA 13.0新增共享内存溢出功能,允许将溢出数据优先存储在片上共享内存中,显著降低访问延迟并减轻L2缓存压力。 该优化通过.pragma enable_smem_spilling指令启用,编译器会优先使用共享内存存储溢出数据,不足时再回退到本地内存。测试显示,启用后原176字节的本地内存溢出完全转移至共享内存,访问延迟从全局内存级别降至共享内存级别。 这项优化特别适用于寄存器密集型内

2025-10-19 22:14:49 326

原创 解锁7倍生成式AI性能:NVIDIA Jetson AGX Thor上的更快、更智能的边缘模型

NVIDIA Jetson AGX Thor实现7倍生成式AI性能提升 NVIDIA通过持续软件优化,使Jetson AGX Thor的生成式AI性能较初始发布提升7倍。最新测试显示,Llama 3.3 70B模型的token输出速度从12.64提升至41.5 tokens/秒,DeepSeek R1 70B模型从11.5提升至40.29 tokens/秒。平台采用两大关键技术:支持FP8和W4A16等量化格式减小模型尺寸,以及通过推测解码技术实现"草稿-验证"加速机制。结合NVFP4量

2025-10-19 21:58:00 940

原创 使用NVIDIA cuVS优化向量搜索:从索引构建到实时检索

NVIDIA cuVS加速向量搜索:从GPU索引到CPU部署 NVIDIA cuVS通过GPU加速解决了向量搜索的两大核心挑战:索引构建和查询检索。该工具支持CAGRA、IVF-PQ等先进算法,可将索引构建速度提升高达40倍,并实现与FAISS等主流库的无缝集成。关键特性包括: 闪电般索引构建:利用GPU并行计算,在百万级数据集上实现高效索引 灵活的CPU-GPU互操作:支持在GPU构建索引后部署到CPU环境 多种算法支持:包括CAGRA(GPU原生图索引)和IVF-PQ等 cuVS已帮助Google Cl

2025-10-16 22:03:34 1050

原创 7个即插即用的Python库,瞬间加速你的数据科学工作流

本文介绍了7个即插即用的Python库替代方案,可显著加速数据科学工作流。通过GPU加速技术,这些库能在不改变现有代码的情况下实现数量级性能提升。主要内容包括:使用cudf.pandas加速pandas操作;利用Polars的GPU引擎优化数据处理;通过cuml.accel提速scikit-learn和UMAP/HDBSCAN等机器学习算法;开启XGBoost的CUDA加速参数;以及使用nx-cugraph扩展NetworkX的图分析能力。这些方案特别适合处理千万级规模数据,帮助数据科学家节省时间、提高效率

2025-10-16 18:22:20 1007

原创 解锁次世代游戏体验:NVIDIA最新游戏AI与神经渲染技术深度解析

NVIDIA游戏AI与神经渲染技术革新 NVIDIA在Gamescom 2025上发布了RTX神经渲染和ACE生成式AI技术的重要更新。DLSS 4通过Streamline SDK提供更简便的集成方式,支持175+游戏,显著提升帧率和图像质量。RTX Kit引入Cooperative Vectors技术,允许HLSL着色器直接访问Tensor Core,为实时AI渲染开辟新可能。NvRTX 5.6为Unreal Engine带来ReSTIR PT路径追踪和RTX Mega Geometry功能,支持无限光源

2025-10-15 13:18:34 953

原创 解密NVIDIA硬件一致性平台的内存管理:NUMA vs. CDMM

本文深入探讨了NVIDIA硬件一致性平台(GH200/GB200/GB300)的两种内存管理模式:NUMA和CDMM。NUMA作为默认模式统一管理CPU和GPU内存,但可能导致GPU显存被非计算任务占用,在Kubernetes环境中引发资源隔离问题。CDMM模式则通过驱动直接管理GPU内存,避免系统干扰,特别适合Kubernetes部署和需要精确内存控制的场景。文章详细对比了两种模式的特点、适用场景和配置方法,为开发者和管理员提供了实用的选择指南,帮助优化GPU加速工作负载的性能表现。

2025-10-15 12:21:27 961

原创 使用NVIDIA TAO 6和DeepStream 8构建实时视觉检测管道

NVIDIA TAO 6和DeepStream 8共同构建了端到端的实时视觉检测解决方案。TAO 6支持自监督学习和知识蒸馏技术,可显著提升模型精度(如PCB缺陷检测精度提升4.7%),同时通过模型压缩减少81%的大小。DeepStream 8新增的Inference Builder工具简化了生产部署流程。该方案有效解决了定制模型开发、边缘设备优化和实时部署三大挑战,为制造业质量检测提供了高效AI应用框架。

2025-10-14 12:26:31 797

原创 利用CUDA-X数据科学套件,GPU加速模型训练全攻略

GPU加速树模型训练:制造业数据科学高效方案 本文介绍了利用NVIDIA CUDA-X数据科学套件加速树模型训练的方法。制造业结构化数据特别适合XGBoost、LightGBM和CatBoost等树模型,其优势在于处理表格数据的能力和模型可解释性。文章对比了三种主流梯度提升框架的GPU加速特性,并通过代码示例展示了渐进式特征评估流程,包括合成数据生成、特征重要性排序和模型性能评估。该方法可帮助工程师在半导体等制造业场景中快速识别关键特征,优化模型性能,同时利用GPU实现百倍训练加速。

2025-10-14 10:16:53 1730

原创 使用NVIDIA Nemotron构建日志分析多智能体自我修正RAG系统

本文介绍了利用NVIDIA Nemotron构建的多智能体自我修正RAG系统,用于解决复杂日志分析的挑战。该系统通过混合检索、智能重排序、相关性评分和生成等核心组件,结合多智能体协同工作流,实现了从海量日志中自动提取关键洞察的能力。文章详细阐述了系统架构、关键技术及实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短到数秒,适用于DevOps、网络安全等多个领域。

2025-10-12 12:04:25 816

原创 NVIDIA Isaac Lab与Newton:从仿真到现实的机器人学习新篇章

NVIDIA Isaac Lab与Newton物理引擎的结合开创了机器人学习新范式,实现了从仿真到现实的完整工作流。Newton作为专为机器人学习设计的开源引擎,支持大规模并行计算和精确物理仿真。本文展示了四足机器人运动策略的端到端开发流程:首先在Newton中进行高效训练,接着通过Sim2Sim验证策略鲁棒性,最后无缝部署到物理硬件。这套方案还适用于复杂任务如布料操作,展现了在柔性物体交互中的强大仿真能力。Isaac Lab与Newton的组合大幅提升了机器人学习效率,为从虚拟训练到现实应用提供了可靠的技

2025-10-12 11:39:55 892

原创 RunAI与Dynamo强强联合:智能多节点调度如何引爆LLM推理效率

摘要: NVIDIA Run:ai v2.23与Dynamo深度集成,通过智能多节点调度优化大规模语言模型(LLM)推理效率。Dynamo专为分布式推理设计,支持分离式预填充与解码、动态GPU调度及KV缓存卸载,但多组件协调仍是挑战。Run:ai的Gang调度确保原子化部署,拓扑感知调度优化组件放置,减少跨节点延迟。实战指南详细演示了如何在Run:ai环境部署Dynamo,结合Kubernetes实现高效推理服务。这一方案为LLM生产部署提供了关键的性能与资源利用率保障。

2025-10-11 11:51:18 694

原创 Isaac Lab 2.3深度解析:全身控制与增强遥操作如何重塑机器人学习

NVIDIA Isaac Lab 2.3带来机器人学习的三项突破:1)增强的遥操作支持更多设备并改进上身控制,实现更自然的技能转移;2)SkillGen工作流将人类演示与GPU运动规划结合,自动生成无碰撞的演示数据;3)创新的运动-操作合成技术,通过解耦导航与操作,从纯操作演示生成大规模耦合数据集。这些功能显著简化了复杂机器人系统的开发流程,为人形机器人和灵巧操作任务提供了强大的基础设施支持。

2025-10-11 11:28:34 1143

原创 CUDA 13.0深度解析:统一ARM生态、UVM增强与GPU共享的革命

摘要: NVIDIA CUDA 13.0为嵌入式和边缘计算带来重大革新,统一ARM生态工具链实现"一次构建,随处部署",支持Jetson Thor等平台。其核心特性包括:1)统一虚拟内存(UVM)实现硬件级一致性,允许GPU直接访问主机内存,简化编程并提升性能;2)增强多进程服务(MPS)和绿色上下文(Green Contexts),优化GPU资源共享效率,支持多AI代理并发执行。这些改进显著降低了开发复杂度,提升了机器人、自动驾驶等边缘AI应用的性能与能效,标志着边缘计算进入新纪元。

2025-09-28 20:29:35 1072

原创 NVIDIA Warp v1.9.0深度解析:GPU加速物理仿真与计算的革命性进展

摘要:NVIDIA Warp v1.9.0带来三项重大革新:1)完全重写的可微分行进立方体算法,实现跨平台兼容和AI集成;2)增强的提前编译功能支持二进制模块分发,保护知识产权;3)性能优化包括图捕获线性求解器和自动分块技术。编程模型更Pythonic,支持IntEnum、内核本地数组等新特性。该版本显著提升了GPU加速物理仿真和计算的能力,同时改善了开发者体验。

2025-09-28 20:15:38 758

原创 R²D²深度解析:NVIDIA三大神经网络突破如何变革机器人学习

NVIDIA研究院在机器人学习领域取得了三项突破性的神经网络创新,并于CoRL 2025上隆重推出,统称为**R²D² (NVIDIA Robotics Research and Development Digest)**

2025-09-26 13:27:17 1216 2

原创 NVIDIA Dynamo深度解析:如何优雅地解决LLM推理中的KV缓存瓶颈

NVIDIA Dynamo:突破LLM推理KV缓存瓶颈的创新方案 NVIDIA Dynamo通过KV缓存卸载技术有效解决了大语言模型推理中的内存瓶颈问题。在Transformer架构中,KV缓存随输入序列长度线性增长,常占用数十GB显存,成为性能瓶颈。Dynamo采用创新的三层架构(模型集成层、内存管理层、存储传输层),借助NVIDIA NIXL传输库实现KV缓存在GPU显存与外部存储间的智能调度,显著提升系统性能。该技术可支持超长上下文窗口,提高并发处理能力,降低基础设施成本,特别适用于长会话、高并发服务

2025-09-26 13:04:09 1263

原创 CUDA 13.0重磅发布:统一ARM生态、UVM与更多开发者利器深度解析

CUDA 13.0重磅发布:统一ARM生态与创新特性解析 NVIDIA最新发布的CUDA 13.0带来了多项突破性特性,显著提升了GPU加速计算的开发体验。关键更新包括:1)首次实现ARM生态系统的统一,简化了服务器与嵌入式平台(如Jetson)的开发流程,支持"一次构建、随处部署";2)在Jetson平台引入统一虚拟内存(UVM)和完全一致性支持,使GPU可直接访问主机内存,大幅简化编程模型;3)新增多进程服务(MPS)增强、轻量级绿色上下文等开发者工具。这些创新将显著降低开发复杂度,

2025-09-23 15:19:00 1394

原创 NVIDIA 2025 Hackathon年度总决赛圆满落幕:AI Agent技术创新成果丰硕

NVIDIA 2025 Hackathon年度总决赛成功举办,聚焦"智能体生态"主题,吸引了400+开发者参赛。赛事由NVIDIA与阿里云天池平台合作,提供NeMo Agent Toolkit等技术支持。65支队伍提交作品,展示了多智能体协作、MCP协议应用等创新成果。获奖项目涵盖机器人设计、量化交易、农业智能化等领域,其中RoboGen机器人设计平台获得冠军。大赛推动了AI Agent技术发展,为开发者提供了实践与交流平台。

2025-09-23 11:06:19 2235

原创 深度解析 CUDA-QX 0.4 加速 QEC 与求解器库

NVIDIA CUDA-QX 0.4平台为量子纠错(QEC)研究提供革命性解决方案,通过集成GPU加速显著提升工作流效率。该版本实现了从代码定义、含噪模拟到校验子解码的全流程自动化,其中关键创新包括:1)一键式生成高保真度探测器错误模型(DEM),消除传统手动流程的瓶颈;2)基于cuQuantum SDK的GPU加速张量网络解码器,在保持最佳精度的同时实现数量级性能提升。平台通过统一API简化了QEC研究流程,使研究人员能专注于算法创新而非工程实现,为容错量子计算研究提供了强大的开发基础。

2025-09-22 18:36:26 745

原创 量化感知训练:如何恢复低精度模型的准确性

摘要:本文探讨了深度学习模型量化部署的三种关键技术:后训练量化(PTQ)、量化感知训练(QAT)和量化感知蒸馏(QAD)。PTQ简单高效但可能导致精度下降,QAT通过训练过程中模拟量化操作来恢复精度,QAD则结合知识蒸馏进一步优化性能。文章详细介绍了QAT/QAD的工作原理,并展示了如何利用NVIDIA TensorRT工具链实现这些技术。这些方法能在保持模型精度的同时显著提升推理效率,特别是对于大型语言模型等复杂场景,为AI模型的高效部署提供了重要解决方案。

2025-09-22 13:28:35 642

原创 NV-FP4:以4位的速度与效率,实现16位的训练精度

摘要: NVIDIA推出创新4位浮点格式NV-FP4,通过算法与硬件协同设计,在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构,结合两阶段量化策略和硬件加速逆量化,有效减少内存占用并优化计算性能。实验显示,在Llama等大型语言模型训练中,NV-FP4精度与BF16相当,性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine,开发者可通过简单API调用实现高效低精度训练,为AI模型规模化提供新范式。

2025-09-22 13:20:13 904

原创 NVIDIA Rubin CPX:为百万级Token上下文工作负载加速推理性能与效率

NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块化设计,支持NVLink 6高速互连,并配合TensorRT-LLM和NIM软件生态,为超长上下文AI应用提供端

2025-09-21 08:38:04 876

原创 小语言模型(SLM):构建可扩展智能体AI的关键

本文探讨了小型语言模型(SLM)在构建可扩展AI智能体中的关键作用。随着AI从单一任务模型向多功能智能体转变,大规模部署面临成本、延迟和可控性等挑战。SLM通过其70亿-130亿参数量在性能与成本间取得平衡,成为解决方案。 智能体工作流包含推理规划、工具使用和反思修正三个阶段,传统依赖大型通用模型面临高成本、高延迟等局限。文章提出"模型即微服务"架构,由调度器和专家SLM协同工作,实现成本效益、低延迟和专业精准。 NVIDIA NeMo框架支持SLM全流程构建,包括数据准备、监督微调和强

2025-09-20 12:51:24 764

原创 深入解析推测解码:降低AI推理延迟的前沿技术

推测解码:降低AI推理延迟的前沿技术 大型语言模型(LLM)的自回归推理面临显著延迟问题。推测解码技术通过"草稿-验证"机制有效优化这一过程:使用小型草稿模型快速生成候选词元序列,再通过目标模型一次性并行验证,仅需一次前向传播即可确认多个有效词元。NVIDIA TensorRT-LLM对该技术提供原生支持,开发者只需简单配置即可获得2-3倍的性能提升。理想草稿模型应具备高速、与目标模型高度一致的特点,配合TensorRT-LLM的优化内核和Triton推理服务器,可显著提升LLM的生产环

2025-09-20 12:42:08 997

原创 隆重推出 NVIDIA Jetson Thor:物理 AI 的终极平台

NVIDIA推出Jetson Thor开发者套件,为物理AI和人形机器人提供强大计算平台。该套件基于Blackwell架构,具备2070 FP4 TFLOPS AI计算能力,支持多实例GPU技术,可同时处理实时控制和高级推理任务。配备128GB内存、14核CPU及丰富接口,Jetson Thor能运行复杂的生成式AI模型,实现物体识别、导航等机器人功能。新品相比前代性能提升7.5倍,能效提高3.5倍,支持FP4/FP8动态切换,是构建新一代通用机器人的理想硬件基础。

2025-08-29 11:55:20 991

原创 使用 Wheel Variants 简化 CUDA 加速 Python 安装和打包工作流

摘要: Wheel Variants 是一种新型 Python 打包格式,旨在解决 GPU 加速包(如 PyTorch)的安装复杂性。当前 Wheel 格式缺乏对异构硬件(如不同 CUDA 版本)的精细支持,导致用户需手动匹配安装命令。NVIDIA 联合 Meta、Astral 等推出的 WheelNext 倡议扩展了 Wheel 标签系统,允许同一包版本针对不同硬件配置提供多版本 Wheel 文件。PyTorch 2.8.0 已实验性支持该格式,用户可通过 uv 安装工具体验改进后的安装流程。

2025-08-29 10:11:02 1056

cuda 中文手册

cuda api 所有函数实现以及使用方法 cuda初学者必备

2012-01-10

利用SSD网络进行车牌检测模型训练

利用SSD网络进行车牌检测模型训练

2022-12-25

Pytorch 1.11 Jetpack 5.0 python 3.8

Pytorch 1.11 Jetpack 5.0 python 3.8

2022-05-27

第六届Sky Hackathon知识图谱

本内容包含NVIDIA 开发者社区第六届Sky Hackathon的相关内容: * 配置环境 * 数据下载 * 预训练模型 * 执行脚本

2022-05-21

人脸口罩检测(含运行代码+数据集)

本教程目的为让开发者了解深度学习中的完整流程,这包括:** 1.数据集导入及预处理流程 2.网络模型选择及参数设置流程 3.模型训练及导出流程 4.模型加载/优化并得出推断结果 本教程采用了以下主要的软硬件环境:** 1.NVIDIA Xavier NX 2.Jetpack 4.6 3.TensorRT 8.0.1 4.Pytorch 1.10.0 5.Python 3.6.9 6.Opencv 4.1.1

2022-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除