leo0308-优快云博客

原创【LLM硬核】大模型显存精算指南：从推理到训练，模型到底需要多少显存？

无论是自己部署本地知识库，还是尝试微调一个垂直领域的模型，“显存到底够不够”永远是第一个要计算的问题。很多同学有一个误区：“7B 的模型文件只有 14GB，为什么我 24G 的 3090 跑训练还是直接爆显存？这篇文章将从底层原理出发，详细拆解推理、全量微调、LoRA微调三种场景下的显存计算公式，并附带 7B 和 70B 模型的实战估算。

2025-12-14 11:34:26 754

原创【PyTorch】显存虚高？一文读懂 torch.cuda.empty_cache() 的原理与正确用法

nvidia-smi 高、实际占用低，通常是显存碎片化导致的，不是 BUG。可以释放未使用的缓存，让nvidia-smi数据变好看。不要滥用：频繁调用会严重拖慢速度。最佳场景：推理阶段处理完复杂数据后、或者 OOM 救急时使用。

2025-12-10 18:35:38 628

原创 Hugging Face 训练避坑指南：`device_map=“auto“` 在 SFTTrainer, Accelerate, Unsloth 中的正确用法

运行方式 / 使用的库用法核心原因 (一句话)pythonSFTTrainer必须加手动模式，需要开发者开启高级加载功能。不能加自动模式，与外部环境的管理权限冲突。unsloth可选 (不影响)智能模式，库本身已内置最佳实践。希望这篇博客能帮助你彻底搞懂的用法，让你的大模型微调之路更加顺畅！

2025-12-08 20:25:44 655

原创同一个PyTorch模型，为何在RTX 3060上的显存占用远超Jetson Orin Nano？

特性Jetson Orin Nano (统一内存)RTX 3060 (独立显存)硬件架构CPU/GPU 共享系统RAMGPU拥有独立的GDDR6 VRAM数据传输无需PCIe拷贝，高效直接数据需经由PCIe在RAM和VRAM间拷贝PyTorch策略内存分配较保守，更接近实际需求性能优先，预先申请大块缓存池报告的内存占用~2GB (实际占用)~7GB (预留占用)设计目标高能效比、低功耗、适用于边缘计算极致的计算性能。

2025-12-08 19:43:33 726

原创【Python黑魔法】揭秘“猴子补丁”：一行代码改变世界，连HuggingFace都能被“魔改”！

你是否听说过一种能在程序运行时，动态修改甚至替换代码的“黑魔法”？它无需改动任何源代码文件，仅凭一行赋值语句，就能让一个库、一个类的行为发生翻天覆地的变化。这就是在 Python 等动态语言中既强大又危险的技术——猴子补丁 (Monkey-Patching)。本文将从一个生动的比喻入手，通过代码示例，最终揭示像Unsloth这样的高性能AI库是如何利用它来“魔改”HuggingFace Transformers，实现惊人性能的。关键词。

2025-12-08 14:04:18 617

原创【LLM微调】拒绝“假装聪明”：SFTTrainer 中 completion_only_loss 新旧版本用法详解

摘要：本文探讨了指令微调大模型时常见的问题——训练指标优异但实际推理效果差，指出这是由于模型"作弊"背诵固定prompt而非学习回答逻辑。重点介绍了completion_only_loss解决方案，通过强制模型仅学习回答部分提升训练效果。详细对比了trl库0.20.0版本前后的实现差异：旧版需手动配置DataCollator，新版则通过SFTConfig直接启用该功能。文章还提供了新版代码实现步骤和常见避坑指南，强调需关闭packing参数并预处理数据集。正确使用该技术可使模型专注于生成

2025-12-07 16:38:20 427 1

原创 SFTTrainer多卡训练必备技巧：Accelerate极简上手指南

Hugging Face trl 库的 SFTTrainer 与 Accelerate 深度集成，只需三步即可实现多GPU加速训练：启动方式：用 accelerate launch 替代 python 运行脚本模型加载：删除 device_map="auto" 参数，由 Accelerate 自动分配训练配置：在 SFTConfig 中添加三个关键参数： gradient_checkpointing=True gradient_checkpointing_kwargs={&quot

2025-12-06 20:56:37 855

原创深度解析Hugging Face Accelerate：`Trainer`背后的“隐形”分布式引擎

假设你已经有了一个可以正常运行的单卡PyTorch训练脚本，现在想让它支持高效的多卡训练。这些繁琐的配置劝退了无数开发者。本文将为你介绍 Hugging Face 的。库，并与原生DDP做清晰对比，让你明白它如何用最少的代码，实现最优雅的多卡训练。你的脚本现在已经具备了在任何硬件上高效运行的能力。如果你想用原生PyTorch DDP进行多卡训练，你。标题：PyTorch分布式训练太复杂？：三行代码搞定，告别DDP“天书”还在为PyTorch原生的。(DDP)训练而头疼吗？

2025-12-06 20:50:31 348

原创 Hugging Face多卡训练“假快”？一文讲透`per_device_train_batch_size`的“陷阱”

多卡训练时GPU利用率低？可能是启动方式不对！用python直接运行会触发低效的DataParallel模式，导致batch_size被误解为总样本数。正确做法是使用accelerate launch启动，配合删除device_map参数并调整SFTConfig设置，启用高效的DistributedDataParallel模式。三步优化即可让所有GPU满负荷工作：1)改用accelerate launch；2)移除device_map="auto"；3)配置gradient_checkp

2025-12-06 20:23:28 553

原创【避坑指南】Hugging Face 已经下载了模型，为什么还要联网？如何彻底离线运行？

明明已经把模型文件全部下载到了本地，并且设置了离线模式环境变量，代码运行时依然尝试联网，导致报错。本文将从源码角度分析 Hugging Face库的联网机制，解释为什么设置了依然可能失败，并给出终极解决方案。如果在离线环境中遇到打印你传入的字符串。它必须是一个真实存在的本地文件夹绝对路径（如），绝不能是user/repo这种 ID 格式。确保已设置。确保目录里有以及等权重文件。一句话总结：想要彻底离线，不仅要断网，还要告诉代码“去读硬盘”，而不是“去读ID”。

2025-12-06 13:01:04 880

原创推荐一个在线PS网站

摘要：PhotoShop(PS)虽是专业图像处理软件，但体积大且安装复杂。推荐在线工具Photopea（https://www.photopea.com/），无需安装即可在浏览器中实现大部分基础PS功能，特别适合非专业用户临时使用，操作便捷高效。（配图为Photopea界面示意图）

2025-09-21 18:35:16 449

原创让机器人先“脑补”再动手！CoT-VLA 用“视觉思维链”刷新操作纪录

CoT-VLA 用一张“想象中的未来照片”把大语言模型的“逐步思考”搬进机器人世界，让动作不再黑箱，让数据不再昂贵。留给我们的启发当 AI“会说会画”之后，“会想象”可能是通往通用机器人的下一站；若手机里的短视频都能变成机器人“脑内小剧场”，低成本大规模训练不再是梦。

2025-09-08 20:18:40 800

原创 7种流行Prompt设计模式详解：适用场景与最佳实践

本文介绍了7种提升大型语言模型性能的Prompt设计模式：1)思维链模式(CoT)通过分步推理提升复杂任务准确性；2)角色扮演模式赋予模型专业视角；3)少样本学习模式通过示例引导格式化输出；4)自我反思模式通过批判性评估提高输出质量；5)宪法AI模式确保输出符合伦理规范；6)检索增强生成(RAG)结合外部信息提高准确性；7)思维树模式通过多路径探索优化解决方案。每种模式都详细说明了核心原理、适用场景和使用要点，为开发者提供了系统化的Prompt设计方法论。

2025-09-05 11:24:08 962 2

原创 DINOv3不同尺寸模型效果比较

可以看到， 4个尺寸的模型都能较好的提取到图像的特征。实际使用时可以根据硬件情况合理选用，不用盲目追求大的模型。选取 29M, 86M, 300M和840M 4个尺寸的模型进行特征可视化对比。

2025-09-02 16:52:33 321

原创 DINOv2 vs DINOv3 vs CLIP：自监督视觉模型的演进与可视化对比

论文链接官方主页/代码CLIP 由 OpenAI 提出，是多模态自监督学习的里程碑。它通过在互联网规模的图像-文本对上进行对比学习，使模型能够理解图像内容与自然语言之间的对应关系。其核心思想是：将图像和文本映射到同一语义空间，使得匹配的图文对距离更近，不匹配的更远。优点支持零样本分类（Zero-shot Classification），无需微调即可迁移到新任务。泛化能力强，在多种下游任务中表现优异。局限依赖大量带噪声的图文对数据。图像特征偏向全局语义，缺乏细粒度的密集特征。

2025-08-28 16:47:15 1335

原创 CLIP图像特征提取：`CLIPVisionModel` vs `CLIPModel.get_image_features()`，哪种更适合你的任务？

对比项模型类型仅视觉编码器完整 CLIP 模型（视觉 + 文本）输出维度768维（hidden size）512维（投影后）是否经过投影头❌ 否✅ 是是否与文本空间对齐❌ 否✅ 是是否适合跨模态任务❌ 不适合✅ 完全适合特征用途中间特征（backbone）标准嵌入（embedding）推荐程度⚠️ 不推荐✅ 强烈推荐。

2025-08-28 14:09:52 945

原创 Windows下实现类似`watch nvidia-smi`的实时监控效果

只需一行PowerShell命令，就能在Windows上实现。

2025-08-26 15:59:28 467

原创 Python程序“假死”卡住却无报错？用 `py-spy` 一行命令精准定位阻塞点

某 python程序运行一段时间后“假死”，进程仍在，但不再处理命令，也无任何报错。虽然进程没有崩溃，但实际上已经无法继续执行任务，严重影响系统稳定性。的情况下，实时查看 Python 程序的调用栈，精准定位卡顿位置。是纯 Rust 编写的，性能极高，对目标进程影响极小。但这些方法大多只能告诉你“程序卡了”，却无法精准定位到。，我们很难第一时间判断程序到底卡在了哪一行代码。替换为你的 Python 进程 ID，可通过。读取目标进程的内存和调用栈，因此完全无侵入。是一个基于采样的性能分析工具，它可以在。

2025-08-26 14:33:59 779

原创 huggingface离线下载模型使用方法

要离线使用Hugging Face模型，需先在线下载并保存模型到本地。使用AutoTokenizer和AutoModel的save_pretrained()方法保存模型文件，然后将整个文件夹复制到离线环境。加载时通过本地路径调用from_pretrained()即可。也可用huggingface-cli download命令下载模型，或设置TRANSFORMERS_OFFLINE=1环境变量强制离线模式。注意确保文件完整、版本兼容，大模型建议使用git lfs克隆。

2025-08-22 17:31:52 975

原创为什么 pip 找不到最新版本的包？真相竟是 Python 版本太低！

pip 找不到最新版本，不一定是因为源里没有，而是因为你的环境不兼容。

2025-08-21 17:55:50 1470

原创机器人等级划分：从level0到level4

该报告系统性地提出了一个从商业可行性角度划分机器人发展的五级框架，清晰地描绘了从当前自动化到未来通用机器人（General-Purpose Robots）的演进路径。报告的核心是将机器人技术的发展划分为五个渐进的、商业上可实现的等级（Level）。每一级都建立在前一级的基础之上，解锁新的能力，并逐步取代更多的人类劳动力。SemiAnalysis发布了《机器人自主性等级》

2025-08-21 11:02:08 2089

原创为什么 `source ~/.bashrc` 在 systemd 或 crontab 中不生效

你在.bashrc但在自动化脚本中运行时，命令找不到。“能手动运行，但自动启动失败”是运维中最令人头疼的问题之一。而~/.bashrc的正是隐藏最深的元凶之一。记住一句话：🔑在自动化脚本中，不要假设环境存在，要显式构建它。只有这样，你的服务才能真正“稳定自启动”。

2025-08-07 18:30:17 634

原创 Linux库路径三剑客：/usr/lib、/usr/local/lib、~/.local/lib 详解与避坑指南

是**库（Library）**的缩写。这三个路径看似只是简单的文件夹，实则是软件包管理和开发环境的基石。理解它们的区别，不仅能让你的。本文将深入剖析这三个路径的“恩怨情仇”，助你构建清晰、稳定的开发环境。我们可以将这三个路径看作是不同“权限级别”的仓库。可能引发的权限和依赖冲突问题。等命令得心应手，更能避免。在Linux的世界里，假设我们要安装一个名为。

2025-08-06 11:17:55 1457

原创浏览器自动化工具Playwright详解

Playwright 是一个快速、可靠、跨浏览器的自动化工具，让你用代码“控制浏览器”，像真实用户一样操作网页。无论是写测试、做爬虫，还是自动化办公，它都能帮你大幅提升效率。

2025-07-31 19:54:15 1449

原创 TOML介绍

项目说明TOML 是什么一种现代配置文件格式设计目标明显、最小、易读适用场景项目配置、依赖管理、服务设置优点有注释、类型丰富、无歧义缺点不适合复杂嵌套数据推荐使用替代 JSON/YAML 做配置文件。

2025-07-31 11:29:05 868

原创 ROS2 使用 systemd 自启动时 Topic 接收异常？原因与解决方案

而手动运行却一切正常。

2025-07-30 16:28:55 861

原创国内主要人形机器人公司全景对比

国内人形机器人行业快速发展，多家新兴企业崭露头角。智元机器人（上海）由华为前高管创立，获高瓴、红杉等投资，估值150亿元，产品远征A1拥有40+自由度。宇树科技（杭州）专注工业应用，其H1机器人扭矩达240Nm。傅里叶智能（上海）依托上海交大，研发康养机器人GR-1。星动纪元（北京）由清华孵化，获5亿元融资，L7机器人速度达3.6m/s。银河通用（北京）与北大合作研发工业机器人Galbot G1。钛虎机器人（上海）获超1亿元融资，展现年轻团队活力。这些企业覆盖工业、康养、商业等多个应用场景，推动人形机器人技

2025-07-26 10:14:33 1372

原创单目深度估计算法 Depth-Pro 简介与实测

Depth-Pro 是 Apple 提出的最新单目深度估计算法。

2025-07-18 18:05:34 560

原创 Triton Inference Server 使用详解与常见问题汇总

Triton Inference Server（简称 Triton）是 NVIDIA 推出的开源高性能推理服务平台，支持多种深度学习框架（ONNX、TensorFlow、PyTorch、TensorRT等），可在云端、边缘和本地高效部署 AI 模型。

2025-07-18 12:03:35 1316

原创使用 NVIDIA Triton推理服务器的好处

Triton 能让你用最少的人力和代码，把各种 AI 模型高效、安全、可维护地部署到生产环境，并且充分发挥硬件性能，是企业级 AI 推理服务的首选方案之一。如需具体场景举例或技术细节，欢迎继续提问！

2025-07-17 19:48:00 976

原创英伟达Triton 推理服务详解

（简称 Triton，原名 NVIDIA TensorRT Inference Server）是英伟达推出的一个开源、高性能的推理服务器，专为 AI 模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将 AI 模型部署到生产环境中。Triton 主要用于模型推理服务化，即将训练好的模型通过 HTTP/gRPC 等接口对外提供推理服务，适合云端、边缘和本地多种场景。

2025-07-17 15:42:13 891

原创 Nvidia边缘AI设备--Jetson

官网链接: 产品系列：

2025-07-16 19:27:14 238

原创如何把镜头对焦在超焦距上

计算超焦距（H）。设置光圈和焦距。手动对焦到超焦距距离。锁定对焦，开始拍摄。

2025-07-16 17:44:43 728

原创为什么有些相机无需频繁对焦，也能让远近都清楚？——大景深与超焦距原理详解

在日常生活和工程应用中，我们经常会遇到这样一些相机：比如监控摄像头、手机前置摄像头、运动相机、工业相机等，它们在安装好后，无需频繁对焦，就能让从近到远的物体都保持清晰。这是为什么？本文将从光学原理出发，详细解答这个问题。景深（Depth of Field, DOF），指的是画面中前后距离范围内，能够被认为是“清晰”的区域。景深大：前后范围内的物体都清楚。景深小：只有某一平面清楚，前后都模糊。

2025-07-15 19:57:42 1355

原创 GStreamer 详解

GStreamer是一个开源、跨平台的多媒体处理框架，主要用于音视频的采集、处理、传输、播放、转码等各种场景。它由 GStreamer 项目（官网）维护，广泛应用于桌面、服务器、嵌入式设备（如 NVIDIA Jetson、树莓派）、流媒体、AI 视觉等领域。

2025-07-14 19:51:54 1432

原创 argus/nvarguscamerasrc 远程显示报错

argus/nvarguscamerasrc（NVIDIA Jetson 平台的 CSI 摄像头采集驱动和 GStreamer 插件）确实依赖本地物理 X11 环境，在远程 X11 转发（如 ssh -X）、虚拟 X11（如 xvfb、xdummy）等环境下经常会出错，常见表现包括：总结：依赖本地物理 X11 环境，远程 X11 转发和虚拟 X11 环境下经常会出错，建议在本地物理桌面环境下运行相关程序。如需无显示环境下采集图像的方案，欢迎继续提问！

2025-07-14 19:43:41 684

原创 Jetson平台CSI摄像头采集与显示：gst-launch-1.0与OpenCV实战

在NVIDIA Jetson系列（如Nano、Xavier、Orin等）嵌入式AI平台上，CSI摄像头（MIPI接口）是高性能视觉应用的首选。本文将介绍如何用GStreamer命令行工具（gst-launch-1.0）和OpenCV（cv2）两种方式，采集并显示CSI摄像头画面。是 GStreamer 框架的命令行工具。GStreamer 是一个强大的开源多媒体处理框架，广泛用于音视频采集、处理、转码、流媒体等场景。允许开发者通过命令行快速搭建和测试多媒体“管道”，无需写代码即可完成复杂的数据流处理。

2025-07-14 17:45:21 1155

RAG( Retrieval Augmented Generation)简单实现

空空如也