自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI技术改变世界

改变世界~~记录技术的点滴~~

  • 博客(292)
  • 资源 (3)
  • 收藏
  • 关注

原创 Windows下Pytorch3d安装与使用全攻略

版本控制:严格遵循官方推荐的版本组合环境隔离:使用conda虚拟环境管理依赖逐步验证:每步安装后进行验证测试备份恢复:创建环境快照,便于恢复。

2025-12-22 04:02:02 1162

原创 Windows 11 系统安装 Detectron2 详细指南与实战应用

Detectron2 是 Facebook AI Research (FAIR) 开发的一款开源目标检测与图像分割框架,作为 Detectron 和 maskrcnn-benchmark 的继任者,它提供了更加灵活、高效和可扩展的代码库。该框架支持 Facebook 内部的众多计算机视觉研究项目和生产应用,已经成为工业界和学术界广泛采用的标杆工具。4.3.1 准备自定义数据# 注册自定义数据集# 获取数据集元数据print(f"类别数量:len。

2025-12-22 03:51:12 1224

原创 Windows11安装PyTorch 2.x完整指南

虚拟环境是必须的:避免包冲突,便于项目管理CUDA版本要匹配:PyTorch、CUDA Toolkit、显卡驱动需版本兼容镜像源加速:国内用户使用清华/阿里镜像源提高下载速度。

2025-12-21 21:24:50 699

原创 Windows 11 安装 TensorFlow 2.x 完整指南

✅ Anaconda 环境配置✅ CUDA 和 cuDNN 安装✅ TensorFlow GPU 支持配置✅ 完整测试代码✅ 问题排查方案✅ 应用场景分析关键要点TensorFlow 2.10.0 是最后一个官方支持 Windows GPU 的版本需要匹配的 CUDA 11.2 和 cuDNN 8.1 版本建议使用 Anaconda 管理环境以避免依赖冲突实际应用中应根据具体需求选择合适的 TensorFlow 版本和架构。

2025-12-21 20:12:06 825

原创 Win11 + NVIDIA驱动 + CUDA + cuDNN + Anaconda + TensorFlow-GPU + PyTorch GPU环境搭建详细指南 ~ 2026最新版

本指南详细介绍了在Windows 11上搭建完整深度学习GPU环境的步骤。虽然TensorFlow在Windows上的原生GPU支持有限,但通过WSL2或Docker方案可以解决。PyTorch对Windows GPU支持良好,是当前推荐的选择。优先使用PyTorch进行深度学习开发考虑使用WSL2获得更好的TensorFlow支持定期检查NVIDIA官网获取最新驱动和CUDA版本关注PyTorch和TensorFlow官方文档的版本兼容性说明。

2025-12-21 19:02:33 955

原创 Caddy WebServer优势与使用场景总结

在 Caddyfile 中指定适配器admin {config {

2025-12-18 17:42:13 433

原创 AutoGLM-Phone的介绍

部署的核心是将 AutoGLM-Phone-9B 模型在拥有高性能GPU的服务器上运行起来,并提供API服务。无论采用上述哪种方案部署好模型服务,后续在本地电脑上连接手机进行测试的步骤是相同的。

2025-12-18 09:27:14 676

原创 智能问数系统:基于大模型的零配置数据决策解决方案

智能问数系统是一款革新性的数据决策工具,旨在通过大模型技术彻底消除传统数据分析的技术壁垒与冗长流程。无需配置复杂的工作流,用户仅需通过自然语言对话,即可在几分钟内完成从数据提问到可视化洞察的全过程,实现真正的ChatBI与DataAgent体验。该系统将数据分析从“专业技能”转变为“基础工具”,为一线业务人员、中层管理者及高层决策者提供统一、高效、智能的数据交互入口。智能问数系统通过将先进的大语言模型技术与传统数据分析流程深度融合,成功构建了一个“零配置、对话式、智能化”的数据决策新范式。

2025-12-18 00:44:05 731

原创 TensorRT实战:基于C++的YOLOv11目标检测

模型优化充分使用TensorRT的FP16/INT8量化实现动态形状支持优化预处理/后处理流水线内存管理严谨使用智能指针管理TensorRT对象实现GPU内存池避免内存泄漏和碎片化错误处理完善检查所有CUDA API返回值实现异常安全设计提供详细的日志信息。

2025-12-18 00:36:20 469

原创 基于Unreal与Omniverse的数字孪生工厂解决方案

阐述的五大模块,构成了一套从数据到资产、从同步到交互、从优化到演进的完整、闭环、可扩展的数字孪生工厂解决方案。它不仅仅是技术的堆砌,更是以USD为数据基石、以Kafka为神经脉络、以UE5为表现窗口、以Omniverse为协同中枢的有机体系。该方案已通过自动化装配线等案例验证,具备从概念验证快速走向规模化工程落地的能力,为企业迈向工业元宇宙与智能制造提供了坚实的技术路径。

2025-12-18 00:08:49 641

原创 Omniverse Replicator 实战指南

Omniverse Replicator是一个用于生成物理准确的3D合成数据的框架,旨在提升AI感知网络的训练和性能。它提供了一套完整的工具和工作流程,帮助用户创建自定义数据集和精准注释,从而支持深度学习模型的训练。

2025-12-18 00:00:12 411

原创 NVIDIA高性能多GPU通信库NCCL实战指南

始终使用最新版本:NCCL不断优化和修复问题,保持更新系统配置一致:确保所有节点的软硬件配置一致启用调试信息:遇到问题时启用NCCL_DEBUG获取更多信息隔离测试:使用nccl-tests工具隔离测试NCCL功能检查网络配置:大多数问题与网络配置相关记录环境变量:记录有效的环境变量配置,便于复现和调试通过遵循这些故障排除指南,您应该能够解决大多数NCCL相关问题,并确保您的多GPU系统高效运行。

2025-12-17 23:58:41 1046

原创 NVIDIA Project DIGITS:技术架构解析与行业解决方案全景

FP4量化的200B模型虽有其精度局限,但在精心设计的业务场景中,其"80%的质量+100%的隐私+实时响应+成本可控"的组合,恰恰是许多行业应用的最优解。随着软件栈的成熟和开发者社区的投入,Project DIGITS有望成为继GPU加速计算之后,NVIDIA推动的又一次计算范式革命。,消除了传统架构中数据在系统内存和显存之间的复制开销。对于企业用户,DIGITS提供了从"云API消费者"到"AI能力拥有者"的转型路径;,实现CPU与GPU之间的内存一致性,让数据在两大处理器间流动如同在单一芯片内部。

2025-12-17 16:08:05 361 1

原创 使用NVIDIA和Run:ai实现“一次训练,随处部署”的AI混合云方案

NVIDIA与Run:ai的联合方案构建了一个跨云、一致、高效且易管理技术解耦与标准化:通过NVIDIA VMI和GPU Operator标准化了底层基础设施,实现了应用与底层硬件的解耦。资源最大化利用:Run:ai的GPU分片和智能调度,使昂贵的GPU算力得以充分利用,直接提升投资回报率。企业级敏捷与管控:结合了NVIDIA的企业级支持与Run:ai的多租户、配额和优先级管理,使企业能在保持管控力的同时,提升AI研发的敏捷性。总而言之,该方案将NVIDIA在GPU计算领域的标准化能力与。

2025-12-16 06:35:22 476

原创 Triton安装测试及实战指南

性能接近CUDA,开发复杂度显著降低自动化内存访问和并行优化与PyTorch生态系统无缝集成降低高性能GPU编程门槛自定义后端允许将业务逻辑集成到推理流程中,特别适合多模型流水线场景。目录结构├── custom_model/ # 自定义模型目录│ ├── 1/ # 版本目录│ │ └── model.py # Python模型逻辑│ └── config.pbtxt # 配置文件└── fc_model_pt/ # 原有PyTorch模型├── 1/自定义模型代码。

2025-12-15 21:50:24 765

原创 NVIDIA NeMo框架及Llama-Nemotron模型实践

NeMo 是一个专为研究者和开发者设计的。

2025-12-15 21:32:03 1037 1

原创 大语言模型推理极致优化:TensorRT-LLM高性能推理实践指南

TensorRT-LLM 是 NVIDIA 推出的 LLM 推理优化框架,通过 Python API 定义模型,并利用最新优化技术将模型转换为高效的。对比项原始模型TensorRT-LLM(INT8量化)提升显存峰值较高降低 43.8%显著推理时延较长降低 61.1%显著吞吐量较低提高明显(具体数据见 benchmark)显著TensorRT-LLM 通过量化、连续批处理、注意力优化、图重写等关键技术,显著提升了 LLM 推理效率。

2025-12-15 21:03:54 585

原创 NVIDIA NIM 推理微服务介绍

NIM 是 **GPU 加速的推理微服务套件**,核心架构为“预优化容器 + 标准化接口 + 多环境适配”容器化封装:每个 NIM 对应一个 Docker 容器,内置模型文件 + 推理引擎(TensorRT-LLM/VLLM/SGLang) + 运行时依赖,支持 Llama 3.1、GPT-4o 等主流模型;标准化 API:提供与 OpenAI 兼容的等接口,同时支持 NVIDIA 扩展功能(如工具调用、多 LoRA 加载);GPU 优化层。

2025-12-15 20:11:33 1087

原创 NVIDIA NIM 开发并部署 AI Agent(智能体)实战

NIM 是GPU 加速的推理微服务套件,核心架构为“预优化容器 + 标准化接口 + 多环境适配”容器化封装:每个 NIM 对应一个 Docker 容器,内置模型文件 + 推理引擎(TensorRT-LLM/VLLM/SGLang) + 运行时依赖,支持 Llama 3.1、GPT-4o 等主流模型;标准化 API:提供与 OpenAI 兼容的等接口,同时支持 NVIDIA 扩展功能(如工具调用、多 LoRA 加载);GPU 优化层:基于 NVIDIA CUDA/Triton 推理服务器,实现。

2025-12-15 19:45:50 1138

原创 英伟达在大模型训练基础设施领域的解决方案

英伟达在领域提供了以为核心的解决方案,覆盖工具、技术架构、测试体系等维度。

2025-12-15 19:31:47 500

原创 NVIDIA多模态AI能力全景分析:高效生态系统、训练优化与落地实践

通过Scale-Then-Compress实现架构级效率通过DeltaLoss+FP8实现训练级效率通过NIM+蓝图实现部署级效率底层:芯片到框架的全栈优化中层:开源模型与训练方案上层:行业解决方案与部署平台实际价值主张:企业级就绪:从研究到生产的平滑过渡成本可控:数据效率、训练效率、部署效率三重优化场景适配:工业、医疗、媒体等多领域验证未来安全:持续演进的技术路线与生态支持NVIDIA通过VILA模型家族高效训练体系NIM部署平台和行业蓝图。

2025-12-15 19:19:04 1107

原创 Azure AI Foundry 上使用 NVIDIA NIM 加速 AI 推理指南

在。

2025-12-15 19:18:26 997

原创 将NeMo模型转换为Triton兼容格式

核心转换逻辑:NeMo模型先通过工具转为TRT-LLM引擎(这是Triton兼容的核心格式),需指定LoRA权重、精度、并行数等关键参数;Triton适配关键:按Triton要求的目录结构(模型名/版本号/)存放文件,并编写配置文件,定义输入输出、GPU实例、推理参数;易用性优化:可选构建“预处理+推理+后处理”的集成模型,让Triton直接支持文本输入/输出,无需手动处理token转换。

2025-12-14 13:39:11 876

原创 NVIDIA NeMo训练一个具备推理能力的LLM

48小时内完成推理模型的训练单张GPU即可实现(建议H100或A100)显著提升模型的推理能力灵活控制推理模式的开启/关闭关键成功因素精选高质量训练数据恰当的课程学习策略合理的LoRA配置合适的超参数设置现在您可以开始训练自己的推理模型了!

2025-12-14 13:37:13 625

原创 Triton推理服务器部署微调后的模型及测试

保存为triton_adapter.py"""计算对数似然(用于选择题评分)"""raise NotImplementedError("可根据需求实现,MMLU/GPQA主要用generate_until")"""生成回复直到停止符(适配基准测试)"""# 调用Triton生成回复"""封装Triton调用逻辑"""data = {],else:return ""@property@property@property# 注册自定义模型Triton部署核心。

2025-12-14 13:33:45 798

原创 使用NeMo框架微调Llama 3.1 8B Instruct推理模型

数据准备核心:通过NeMo Curator筛选chat/math子集,严格过滤语言/长度,应用Llama 3.1官方聊天模板,按“推理类型+长度”的课程学习策略排序,保证数据质量和训练效率;训练核心:基于NeMo框架配置LoRA(rank=64),通过梯度累积实现256的总批量大小,训练2000步,采用bf16混合精度降低显存占用,同时保存完整模型和仅LoRA权重;评估核心:将模型转换为Triton兼容格式部署,通过lm-eval。

2025-12-14 13:30:56 683

原创 NVIDIA Llama Nemotro 推理模型构建企业级 AI 智能体

参考:https://developer.nvidia.cn/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/领域进入了一个新的竞争阶段,为企业构建下一代自主、智能的AI解决方案提供了一个强大而务实的基础选项。的模型,使企业能够构建能处理复杂、开放式任务的智能体系统,从而提升生产力和运营效率。该系列的核心目标是解决企业级 AI 智能体对。该模型的发布,标志着开源大模型在。

2025-12-14 13:17:57 581

原创 NVIDIA NeMo Agent应用场景和创建智能体实践

新员工Alex不清楚公司的着装规范、如何查询工资单细节以及今年的带薪休假(PTO)余额。: “Alex 问:‘我下周有个客户会议,着装有什么要求?另外,我想看看我上个月的工资明细,还有今年我还有多少天PTO?:通过 NVIDIA NeMo Agent Toolkit,开发者无需从头构建复杂的智能体逻辑和调度系统。它旨在成为一个“粘合剂”层,让开发者能够统一地组合、管理和部署基于不同框架构建的AI智能体与工具。:构建一个智能体,让Alex只需用自然语言提问一次,即可获得所有相关信息。的步骤和内部运作流程。

2025-12-14 13:04:00 942

原创 由AI驱动的3D机器人感知与地图构建技术栈

NVIDIA如何构建一个。其核心目标是让机器人具备在复杂、未知环境中进行所必需的“空间智能”。为了帮助您快速掌握并将其付诸实践,以下是对该技术栈的解读、应用指南与关键总结。

2025-12-14 12:55:34 517

原创 NVIDIA AI端到端应用开发实践

通过云 API 快速验证想法 -> 必要时使用 AI Workbench 进行低成本的 LoRA 微调 -> 依赖 NIM 内置的 TensorRT-LLM 完成极致优化 -> 选择匹配业务需求的部署模式。收集一批高质量的私房菜谱数据,用 LoRA 微调模型,使其风格更独特。构建一个 RAG 系统,将庞大的美食知识库作为模型的外部参考,让生成的食谱更精准、可溯源(例如,准确指出“宫保鸡丁”的正宗做法)。使用 NIM 容器在本地部署,保护您的独家食谱数据。利用 NIM 的流式输出和持续批处理能力。

2025-12-14 12:25:04 1008

原创 NVIDIA NIM、Triton推理服务器和TensorRT-LLM使用场景和作用

是“优化器”:负责单个模型的极致性能Triton是“调度器”:负责多模型的服务编排和管理NIM是“产品”:提供端到端的解决方案想要最快上手→ 用 NIM想要最灵活控制→ 用 Triton + TensorRT-LLM想要最优性能→ 底层用 TensorRT-LLM,上层按需选 Triton 或 NIMNVIDIA 通过这三层产品,覆盖了从研究到生产的全链路需求,让不同技术水平的团队都能找到合适的部署方案。下面我来详细解析NVIDIA NIM、Triton 推理服务器和。

2025-12-14 12:10:08 875

原创 NVIDIA NeMo和NIM是用于开发和部署大模型

1. 使用NeMo微调# 加载基础模型# 准备医疗领域数据# 微调训练# 保存模型# 2. 转换为NIM兼容格式# 3. 使用NIM部署# 构建自定义Dockerfile""""""训练阶段:用NeMo进行模型开发/微调优化阶段:使用TensorRT-LLM进行推理优化部署阶段:用NIM容器化部署运维阶段:监控、扩缩容、更新先从NIM开始,体验模型部署使用NeMo进行小规模微调实验逐步扩展到多GPU训练最后实现完整的生产流水线。

2025-12-14 11:39:17 733

原创 基于Dify/n8n/Coze的实时交友聊天系统解决方案V3

核心实时通信:Socket.IO自建服务器(高可控性)AI增强层:Dify(专业AI工作流)业务流程:n8n(强大自动化)快速原型:Coze(验证AI对话概念)

2025-12-13 13:53:39 411

原创 PandasAI应用与实战解析

PandasAI实战:环境搭建与基本使用指南 PandasAI是一款结合Pandas与AI技术的开源Python库,通过自然语言简化数据分析流程。本文提供完整安装指南: 核心功能 自然语言查询:用日常语言提问数据问题 自动可视化:生成图表和图形 数据预处理:处理缺失值和特征工程 多数据源支持:CSV、Excel及主流数据库 环境搭建步骤 创建Python 3.10虚拟环境 安装核心依赖:pandas-ai及相关数据分析包 配置AI模型(OpenAI或本地MockLLM) 实战演示 # 创建测试DataFra

2025-12-12 15:27:31 743

原创 Qwen2.5本地部署实测:Ollama与vLLM全方位对比指南

最近,通义千问团队发布的Qwen2.5系列模型引起了广泛关注。最令人瞩目的Qwen2.5-72B在多个基准测试中表现优异,甚至在某些任务上超越了Llama 3.1-405B,成为当前最强开源大模型之一。对于开发者和企业来说,本地部署大模型具有多重优势:数据隐私保护、成本可控、响应延迟低、定制化能力强。本文将通过实际测试,对比两款主流部署框架——Ollama和vLLM,在Qwen2.5模型上的表现,帮助你做出合适的技术选择。Qwen2.5提供从0.5B到72B的多种规模选择,满足不同算力需求:每个规模都有基础

2025-12-12 10:11:36 766

原创 Ollama+Qwen2.5+Nomic本地部署教程

创建自定义 Modelfile# 设置参数# 设置系统提示SYSTEM """你是专业的AI助手,回答要准确、有帮助。"""# 构建自定义模型。

2025-12-12 09:51:01 155

原创 Trae + MCP 入门指南:轻松开发与使用

只需一个装饰器,立即将普通函数变成AI工具def 查询天气(城市: str, 日期: str) -> dict:"""查询指定城市和日期的天气情况"""return {"城市": 城市, "日期": 日期, "温度": "25°C"}# 复杂工具同样简单def 数据分析(文件路径: str, 分析类型: str) -> dict:"""对数据进行统计分析"""# 这里可以集成pandas、numpy等return {"统计结果": "分析完成"}优势体现:零学习成本。

2025-12-12 07:57:57 1093

原创 LangChain 极速入门与技术实战V2

LangChain 的核心价值在于其模块化设计哲学和清晰的架构分层。理解其技术架构是构建复杂AI应用的基础。2. 设计模式与模块化LangChain 应用通常遵循以下设计模式:核心组件详解与实战代码1. 模型抽象层:多模型统一接口2. 高级提示工程与模板系统3. 高级记忆系统实现4. 智能代理系统架构5. 企业级RAG系统实现高级应用:完整AI应用架构部署与监控项目结构与最佳实践最佳实践总结模块化设计:每个组件职责单一,便于测试和维护配置管理:使用环境变量和配置

2025-12-12 06:37:25 1005

原创 HexStrike AI MCP Agents v6.0 - 技术文档

明确团队中不同角色在使用HexStrike时的职责和权限。定义安全分析师、自动化工程师、合规审计员等角色的具体任务和协作流程,确保平台的高效和安全使用。

2025-12-11 08:14:55 1337

原创 AI大模型微调~笔记本配置

最后提醒:如果只是学习微调小模型(如1.7B),RTX 4060/4070也够用;但若想长期深入,建议尽量投资。注:品牌也可选戴尔Alienware、惠普暗影精灵等,重点看GPU和散热。

2025-12-10 10:06:22 637

网站压力测试webct

可以测试不同上网方式、在不同地区、访问Web不同页面、在不同并发访问密度情况下的:客户端的响应时间、流量和流速;可以测试任何主机、 WebServer和页面(HTML、CGI、JSP、PHP、ASP、GIF、FLASH以及声音、MPEG等多媒体文档);可以进行分布式多机并行测试,然后合并和计算机测试报告,实现极高的服务器测试压力。声明:Web-CT只是为了测试目的,任何作为拒绝服务DoS和利用分布式测试功能实现分布式拒绝服务攻击DDoS都是违法的,后果由使用者自负。

2010-08-31

java算法大全源码包

java算法大全源码包 ,学习JAVA算法必备之物

2011-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除