- 博客(39)
- 收藏
- 关注
原创 NVIDIA 与谷歌云为企业带来代理式 AI 逻辑推理
通过将我们的 Gemini 模型与 NVIDIA Blackwell 的突破性性能和机密计算能力引入本地部署环境,企业得以充分释放代理式 AI 的全部潜能,”谷歌云副总裁兼基础设施和解决方案总经理 Sachin Gupta 表示。该解决方案由搭载 Blackwell GPU 和采用 NVIDIA 机密计算的 NVIDIA HGX 平台提供支持,助力客户保护 AI 模型和数据,使用户能够在不损害数据安全性或模型完整性的前提下实现突破性的性能和能效。来增强代理式 AI 工作负载的可观测性。
2025-04-16 15:39:07
894
原创 从浏览到购买:AI 智能体如何促进线上购物
从使用精准、高质量的数据优化产品目录,到提高搜索相关性与提供个性化购物辅助,AI 智能体正在改变消费者线上发现、互动和购买商品的方式。SoftServe 的购物助手通过帮助客户快速高效地发现产品并获取详细的产品信息,打造无缝衔接的沉浸式购物体验,其突出的创新点是虚拟试穿功能,让客户可以实时看到衣服和配饰穿戴在身上的效果。然而,过度丰富的选择反而可能会引发决策疲劳,消费者难以在纷繁复杂的信息洪流中选择到所需要的商品。利用 AI 智能体的零售组织将获得不断进化的能力,例如通过增强的预测分析实现更个性化的推荐。
2025-04-16 15:36:20
866
原创 单机8卡GPU,私密云计算平台升级!
经过双方共同努力,支持单机8卡的火山引擎 PCC 私密云计算平台,可实现对满血 DeepSeek 规格模型的全面支持,不仅能确保数据的安全性和隐私性,完整的远程证明功能,可实现毫秒级响应,据测试,AI 应用场景下,推理时延相比明文的损耗不超5%。手机快速记录:对于端侧用户来说,手机和电脑是极其私密的个人终端,快速记录功能需要确保用户输入的语音、视频的隐私安全,火山引擎 PCC 私密云计算平台,可在大模型推理过程中,全程以密文形式处理用户数据,保障用户隐私安全。
2025-04-16 15:34:55
239
原创 NVIDIA 借助由超级芯片提供支持的 CUDA-X 库加速科学和工程发展
对于各类大规模计算工程问题,通过 Grace CPU 存储单元和超级芯片架构,在相同 GPU 和 cuDSS 混合显存技术下,可将最耗时的求解环节速度提升至原来的 4 倍。NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的 11 倍,计算规模增加至 5 倍。的时间,很大程度上取决于模拟极其复杂的量子系统的能力。
2025-04-01 11:27:54
914
原创 适用于 NVIDIA Blackwell 架构的全新软件驱动 AI 工厂高速运行
它可以自动处理所有基于 NVIDIA Blackwell 的 NVIDIA DGX 系统以及 NVIDIA Grace Blackwell 系统的 AI 工厂基础设施生命周期,包括戴尔科技、慧与 (HPE) 、联想和 Supermicro,让全球各行各业都能更轻松地使用先进的 AI 基础设施。与依赖人工干预的传统方法相比,Mission Control 自主恢复功能在快速检查点和自动分层重启功能的支持下,可将任务恢复速度提升高达 10 倍,从而提高 AI 训练和推理效率,保持 AI 应用正常运行。
2025-03-28 14:33:20
849
原创 AI 落地新“食”代:百胜集团与 NVIDIA 共同加速餐饮行业智能创新
该系统部署在由 NVIDIA A100 GPU 加速的 Amazon EC2 P4d 实例上,能够理解自然语言、处理复杂的菜单订单并提供加购建议,在提高准确率和顾客满意度的同时,有效缓解部分高峰门店的运营压力。百胜集团,全球最大的连锁餐厅,也是肯德基、Taco Bell、必胜客和 Habit Burger& Grill 的母公司,正在通过 NVIDIA AI 技术加速 AI 部署,以优化订单处理、提升运营效率并改善餐厅服务体验。百胜集团行业领先的数字技术团队近期推出专有的数字化 AI 餐厅技术平台。
2025-03-28 14:31:37
459
原创 NVIDIA 开源 cuOpt 开启决策优化新时代
对于开发者而言,它提供了高性能 AI 工具包,在处理复杂的优化挑战时,例如网络数据路由(优化视频、语音和网络流量,以减少拥塞并提高效率)或电力分配(平衡电网的供需,最小化损失并确保稳定传输)等,其解决决策问题的速度比传统 CPU 求解器快 3000 倍。FICO、Gurobi Optimization、IBM 和 SimpleRose 等优化领域的领先企业正在探索 GPU 加速的优势,或评估将 cuOpt 集成到其工作流程中的可能性,以及其在工业规划、供应链管理和调度等领域的潜力。
2025-03-28 14:29:44
499
原创 从 AT&T 到联合国,NVIDIA AI Enterprise 助力 AI 智能体重构工作模式
AI 智能体的核心功能可被定制,如问答、翻译、数据处理、预测分析和自动化,以提高组织和行业的生产力,节省时间和成本。合作部署了一个 AI 驱动的 Methods Matcher 工具,为 40 多个国家的人道主义援助专家提供支持,包括研究、总结、最佳实践指南和数据驱动的危机响应,在灾难情况下可提供快速援助。,开发人员可以将 AI 智能体构建到更大的代理式系统中,这些系统可以进行推理,然后将这些系统连接至企业数据,从而解决复杂问题、调用其他工具、实现高效协作,并以更高的自主性运行。
2025-03-28 14:27:41
583
原创 Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理
Soley Therapeutics 的联合创始人兼首席执行官 Yerem Yeghiazarians 表示,“OCI 与 NVIDIA 的结合提供了一个全栈式 AI 解决方案,为我们提供了必要的存储、计算、软件工具以及支持,使我们能够利用 PB 级数据更快地进行创新,以开发我们的 AI 药物研发平台。” Pipefy 首席软件工程师 Gabriel Custodio 表示,“借助这些预封装且经过验证的蓝图,我们部署在 OCI 上的 AI 模型现在已完全自动化,并且速度显著加快。
2025-03-20 16:56:00
860
原创 NVIDIA、Alphabet 和谷歌携手开启代理式与物理 AI 的未来
NVIDIA 创始人兼首席执行官黄仁勋称,“看到谷歌和 NVIDIA 的研究人员和工程师并肩合作,共同应对从药物研发到机器人开发的艰巨挑战,我感到非常高兴。Gemma 由 NVIDIA AI 平台驱动,可作为高度优化的 NVIDIA NIM 微服务使用,利用开源 NVIDIA TensorRT-LLM 库的强大功能,提供卓越的推理性能。两家公司将评估潜在的解决方案,包括利用 AI 优化互连过程,旨在加强能源基础设施的规划和现代化,以打造更加可持续的未来。SynthID 有助于维护。
2025-03-20 16:55:15
455
原创 NVIDIA 发布连接 AI 智能体的 AI-Q Blueprint,开启未来工作新范式
使用这些工具的企业将能够更轻松地连接跨解决方案的 AI 智能体团队,例如 Salesforce 的 Agentforce,Confluence 和 Jira 中的 Atlassian Rovo,以及用于业务转型的 ServiceNow AI 平台,以打破孤岛,简化任务,并将响应时间从几天缩短到几个小时。通过使用 AI-Q 的分析器功能,Visa 可以优化智能体的性能和成本,更大限度地发挥 AI 在威胁响应中的高效作用。如今,借助协作能力,这些智能体可以协同工作,解决复杂问题,甚至产生更广泛的影响。
2025-03-20 16:54:18
895
原创 NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台
SAP 全球 AI 负责人 Walter Sun 表示,“这些先进的推理模型将优化和重写用户查询请求,使我们的 AI 能够更好地理解问题,并提供更智能、更高效的 AI 体验,从而推动业务创新。“推理和代理式 AI 的采用速度非常惊人,” NVIDIA 创始人兼首席执行官黄仁勋表示,“NVIDIA 的开放推理模型、软件和工具为世界各地的开发者和企业构建高效的代理式 AI 团队提供了坚实基础。推理性能的提高意味着模型可处理更复杂的推理任务,增强决策能力,并降低企业运营成本。
2025-03-20 16:53:20
1021
原创 NVIDIA Dynamo 开源库加速并扩展 AI 推理模型
作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。然后,它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上,从而避免昂贵的重新计算,并释放 GPU 来响应新的请求。
2025-03-20 16:45:03
940
原创 GTC25 | 汲取 AI 灵感,就在这个中文线上专场
在本次演讲中,我们将分享基于位图的集合操作优化实践,详细阐述高效集合并集、交集、差集和其他操作的设计和实现要点,并展示如何与现有的基于排序数组的 GPU 集合操作工具包 (如 Thrust) 合作。最后,您将拥有切实可行的实施和部署 LLM 的策略,以满足服务水平低下的语言社区的独特需求。与此同时,GPU 上基于位图的集合操作工具包仍需进一步优化。大模型技术在搜索、推荐和广告领域的应用如火如荼,尤其是以生成式推荐为代表的研究被视为下一代搜推广稀疏大模型的全新技术路线,成为各大公司争相探索和落地的方向。
2025-03-20 09:36:28
858
原创 GTC25 | 迎接 AI 智能体新纪元,和行业专家共同探索新机遇
LangChain 联合创始人兼首席执行官 Harrison Chase,将分享 LangChain 在帮助企业开发、部署和管理大规模生产环境中的企业级 AI 智能体过程中所获得的重要经验,并探讨有望塑造未来的新兴技术。NVIDIA 高级工程总监 Bartley Richardson 将展示最新的工具和框架,这些工具和框架能够帮助开发者更便捷地构建代理式 AI 系统,连接 AI 智能体与企业数据,并在组织内部推动效率提升。系列内容,分享 NVIDIA 内部团队的解决方案和重要经验,供您参考和借鉴。
2025-03-20 09:27:58
543
原创 使用 NVIDIA NeMo Curator 提高生成式 AI 模型的准确性
NeMo Curator 是一款功能强大的工具,旨在帮助您从原始数据集中提取最大价值,并将其转换为高质量的可消耗数据,以确保下游模型的高准确性。随着数据量呈爆炸式增长,拥有可扩展且高效的数据流水线比以往任何时候都更加重要。NeMo Curator 支持文本、图像和视频模式的处理,并且可以快速高效地扩展高达 100+ PB 的数据,确保您的模型保持最新状态,而不会受到模型漂移的影响。
2025-03-13 16:55:04
1474
原创 基于 1F1B 的 MoE A2A 通信计算 Overlap
我们转向考虑 interleaved 1F1B,沿用上面调整 warmup step 的逻辑,惊喜地发现,通过将稳态的 1F1B stage 中第一个 micro batch 的 fprop 提前到 warmup stage,即 warmup step + 1,就可以在 interleaved 1F1B 实现 1F1B 稳态阶段不同 micro batch 前反向之间的 EP A2A 与计算的 overlap。因此,多数情况下两种方案的 bubble overhead 是比较接近的。
2025-03-11 15:59:32
721
原创 NVIDIA Cosmos World 基础模型平台助力物理 AI 进步
随着机器人和的发展,加速的发展变得至关重要,而物理 AI 使自主机器能够感知、理解并在现实世界中执行复杂的操作。这些系统的核心是,即通过物理感知视频模拟物理状态的 AI 模型,使机器能够做出准确决策并与周围环境无缝交互。平台可帮助开发者大规模为物理 AI 系统构建自定义世界模型。它为从数据管护、训练到定制的每个开发阶段提供开放世界基础模型和工具。视频 1、NVIDIA Cosmos:适用于物理 AI 的世界基础模型平台本文将介绍 Cosmos 及其加速物理 AI 开发的主要功能。
2025-02-07 14:21:23
781
原创 如何使用 NVIDIA NeMo Guardrails 为客户服务保护 AI 智能体
AI企业扩展和提升客户服务以及支持交互提供了重要机会。这些客服人员可自动处理日常查询并缩短响应时间,从而提高效率和客户满意度,帮助组织保持竞争力。但是,除了这些优势之外,。容易生成不当内容或离题内容,并且容易受到“jailbreak”攻击。为了充分发挥生成式 AI 在客户服务中的潜力,实施可靠的 AI 安全措施至关重要。本教程为 AI 构建者提供了切实可行的步骤,以便将基本的安全措施集成到适用于客户服务应用的 AI 智能体中。它展示了如何利用,一种可扩展的铁路编排平台,包括作为。
2025-02-07 14:17:16
1151
原创 NVIDIA AI 技术开放日 2024年 7月
请点击以下链接观看全部活动视频:NVIDIA英伟达的个人空间-NVIDIA英伟达个人主页-哔哩哔哩视频
2025-02-06 11:17:45
287
原创 NVIDIA AI 加速精讲堂 2024年
请点击以下链接观看全部活动视频:NVIDIA英伟达的个人空间-NVIDIA英伟达个人主页-哔哩哔哩视频
2025-02-06 11:17:03
405
原创 NVIDIA专家面对面技术沙龙 2025 1月
请点击以下链接观看全部活动视频:Main Session-NVIDIA 从NIM到 AI infra 的全栈式解决方案概览_哔哩哔哩_bilibili
2025-02-06 11:14:04
662
原创 借助最新 NVIDIA Merlin TensorFlow 插件实现大规模 Embedding 扩展
通过封装 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下简称 SOK)使得 TensorFlow用户可以借助 HugeCTR 的一些相关特性和优化加速 GPU 上的分布式 Embedding训练。在以往文章中(
2025-02-06 11:12:34
917
原创 探索 FP8 训练中 Debug 思路与技巧
不过,这个特性还在开发过程中,目前还是一个比较初步的判断,需要检查是前向的矩阵还是反向的两个矩阵其中之一出现了差错。比如在引入 FP8 初期,软件上的 Sequence Paralleism(SP)经常会引起一些问题,因此可以先尝试进行关闭,如果发现关闭后并没有问题,可以初步判断 Loss 不是由软件引起的,从而大概率可以推断是 Recipe 不够完善造成的。我们发现,比较接近 Loss 末尾的时候,差异就会随之出现,并且显然已经不是十的负三次方的量级,这种情况下,可以考虑以下的步骤进行问题的排查。
2025-02-06 09:54:50
644
原创 百度飞桨利用 NVIDIA Modulus 加速 AI 预测汽车风阻
DNNFluid-Car 正是基于 NVIDIA Modulus,其中核心模型基于几何信息神经算子(Geometry-informed neural operator, GINO)网络,通过纯数据驱动的方法实现对汽车表面压力和壁面剪切应力分布的预测,进而预测相应几何的汽车的风阻系数。在 DNNFluid-Car 模型开发过程中,NVIDIA 和百度一起,结合 DNNFluid-Car 模型特点,基于飞桨进行了端到端的深度加速,模型训练效果与优化前相比,训练速度提升了 10 倍,显存占用降低了 50%。
2025-02-06 09:53:14
954
原创 阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践
随着 ChatGPT 的一夜爆火,大模型如今越来越广泛的应用到各种业务领域中,阿里安全的业务领域对大模型技术的应用也已经 2 年有余。本文对阿里安全在大模型工程领域积累的实践经验做出总结和分享。在大模型实际应用实践的过程中,阿里安全采用NVIDIA NeMoTM 框架和大语言模型推理加速库,显著优化了模型训练与推理性能。
2025-02-05 16:44:53
1003
原创 RecSys ’24: 使用 EMBark 进行大规模推荐系统训练 Embedding 加速
推荐系统是互联网行业的核心系统,如何高效训练推荐系统是各公司关注的核心问题。目前,推荐系统基本上都是基于深度学习的大规模 ID 类模型,模型包含数十亿甚至数百亿级别的 ID 特征,典型结构如图 1 所示。图1. 典型 DLRM 模型结构图近年来,以。
2025-02-05 16:38:28
896
原创 FP8 训练的挑战和最佳实践
我们选择更低精度的出发点是为了加快训练速度,更快的训练速度意味着可以用更多数据训练更大模型,根据Scaling Law得到更好模型效果,或者在更短的时间内训练出性能相当的模型。另一方面,低精度训练格式天然对模型训练效果有影响,因此需要找到方法使FP8训练在绝大多数case下稳定收敛,达到与高精度训练相近的模型效果。
2025-02-05 16:34:55
1277
原创 使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文将介绍如何在阿里云 ACK 集群上,使用云原生 AI 套件集成开源推理服务框架KServe,快速部署 NVIDIA NIM。同时,结合阿里云的 Prometheus 和 Grafana 服务,快速搭建监控大盘,实时观测推理服务状态。利用 NVIDIA NIM 提供丰富的监控指标,如num_requests_waiting,配置推理服务弹性扩缩容策略。当有突发流量导致推理服务处理请求排队时,能自动扩容新的实例来应对高峰流量。整体解决方案架构如下所示。创建 ACK 集群并安装云原生 AI 套件,
2025-02-05 16:32:29
922
原创 NVIDIA TensorRT-LLM 在推荐广告及搜索广告的生成式召回的加速实践
推荐系统的主要任务是根据用户的历史行为预测其兴趣点,并向其推荐相应的商品。传统的推荐系统在处理用户请求时,会触发多个召回模块(包括热门商品召回、个性化召回、深度召回等),以召回大量候选商品。随后,系统通过相对简单的粗排模型对候选集进行初步筛选,缩小候选范围,最后通过精排和重排模型,确定最终返回给用户的推荐结果。随着大语言模型(LLM)在推荐系统中的应用,生成式推荐系统相比传统推荐系统展现出以下优势:
2025-02-05 16:30:03
846
原创 TensorRT-LLM:LLM API 精简指令畅享卓越性能!
直接从 Hugging Face 模型库下载模型,例如 TinyLlama/TinyLlama-1.1B-Chat-v1.0。本地 Hugging Face 模型:使用已下载到本地的 Hugging Face 模型。本地 TensorRT-LLM 引擎:使用通过 trtllm-build 工具构建或由 Python LLM API 保存的 Engine。您可以使用 LLM(model=<any-model-path>) 构造函数来灵活切换这些格式。以下各节将详细介绍具体使用方法。
2025-02-05 16:28:17
1006
原创 NVIDIA TensorRT-LLM Roadmap 现已在 GitHub 上公开发布!
过往,许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中,总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ,旨在帮助用户更好地规划产品开发方向。近期,我们收到了许多用户的积极反馈,并表示,TensorRT-LLM 不仅显著提升了性能表现,还成功地将其应用集成到各自的业务中。这不仅有助于您及时了解 TensorRT-LLM 的最新动态,还能让您的产品开发与 NVIDIA 的技术创新保持同步。
2025-02-05 16:25:45
916
原创 通过阿里云计算巢部署 NVIDIA NIM,加速企业大语言模型 SaaS 化
以 Llama3 为例,我们通过计算巢来创建、管理 LLM 推理服务:在阿里云容器服务 ACK (容器服务 Kubernetes 版)集群上,我们使用阿里云 ACK 的云原生 AI 套件,集成开源推理服务框架 KServe,来部署 NVIDIA NIM。本文介绍了通过阿里云计算巢快速部署 NVIDIA NIM 的方案收益和部署方式,该方案充分利用了 NIM 的安全与高性能的无缝 AI 推理功能,以及计算巢的软件一站式上云和交付能力,从而打造极致弹性、高性能、可实时观测的云上 LLM 推理服务。
2025-02-05 16:20:57
702
原创 在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略
提供多项优化,可随时随地在 NVIDIA 加速的基础设施 (包括云、数据中心和工作站) 中高效部署生成式 AI 应用。这些优化可在同一硬件上实现显著加速和更好的缓存重复利用。这最终能够减少资源来处理相同的工作负载,降低能源成本并提高总拥有成本。
2025-02-05 14:31:50
685
原创 如何使用FP8加速大模型训练
在这个过程中,零一万物基于 NVIDIA 软硬结合的技术栈,在功能开发、调试和性能层面,与 NVIDIA 团队合作优化,完成了在大模型的 FP8 训练和验证。在此基础上,零一万物团队进一步的设计了训练容错方案:由于没有 BF16 的 baseline 来检查千亿模型 FP8 训练的 loss 下降是否正常,于是,每间隔一定的步数,同时使用 FP8 和 BF16 进行训练,并根据 BF16 和 FP8 训练的 loss diff 和评测指标的差异,决定是否用 BF16 训练修正 FP8 训练。
2025-02-05 14:27:22
693
原创 TensorRT-LLM 低精度推理优化:从速度和精度角度的FP8 vs Int8 的全面解析
PTQ 量化需计算 Scaling Factor,Multi-Head Attention 中的 GEMM 运算在 Scaling Facotr 为 1 就可以保持不错的精度(目前,TensorRT-LLM 中为了提高精度,在该部分做了 Scaling Factor 不为 1 的实现,本文内容是以 FMHA 的 Scaling 为 1 的情况下的分析)。可以看到,INT8 的 MMHA kernel 在 XU pipe 上的利用率非常高,也就是所有的 kernel 运算,都会卡在这个地方,产生较高的瓶颈。
2025-02-05 11:38:00
972
原创 NVIDIA Air 简要介绍
ByAI 的出现带来了一种新型数据中心,即AI 工厂,专门用于处理 AI 工作负载。AI 工作负载的范围和规模可能会有很大差异,但在每种情况下,网络都是确保高性能和更快实现价值的关键。为缩短 AI 部署时间并提高投资回报率,助力企业组织构建网络基础设施的数字孪生。在基于云的 NVIDIA Air 界面中,您可以对 AI 工厂中的每个交换机、适配器和电缆进行建模。此数字孪生提供了一个虚拟环境,用于测试和验证网络调配、自动化、安全策略等。网络管理员可以在单个硬件交付之前开始执行这些第 0 天操作。
2024-12-25 13:15:07
1067
原创 借助 NVIDIA Earth-2 推进太阳辐射预测
随着全球电力需求持续上升,传统能源的可持续性与日俱增。能源提供商面临的压力是,减少对矿物燃料的依赖,同时确保电网供应充足且稳定。在这种背景下,太阳能已成为一种重要的可再生能源,是最丰...
2024-12-24 18:06:41
833
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人