月下倩影时-优快云博客

原创视觉学习篇——模型推理部署：从“炼丹”到“上桌”

在看这篇文章之前，我默认你已经跑通了训练代码，手里有一个.pt或.pth的模型权重文件，正摩拳擦掌地想把它用起来。训练只是长征第一步，部署才是真正的战场！你以为训练完就结束了？为什么部署比训练难得多？训练环境和生产环境根本就是两个世界！维度训练环境生产环境硬件8xGPU服务器可能只有CPU，甚至手机NPU延迟几百ms也能忍必须<30ms，否则用户体验炸裂吞吐量一个一个来高并发，每秒处理成百上千请求功耗插着电，随便造手机要省电，嵌入式设备功耗敏感稳定性崩了就重启7x24小时不能挂。

2025-11-17 19:29:23 805

原创视觉学习篇——认识深度学习框架

本文探讨了深度学习框架的发展与应用。文章首先以生动类比说明框架的必要性，指出其提供的自动微分、GPU加速等功能让研究者从底层实现中解放。随后梳理了框架发展史：从早期手工编码（2012前）、Caffe主导（2013-2015），到PyTorch与TensorFlow双雄争霸（2015-2018），再到JAX等新势力崛起（2020后）。重点对比了主流框架的优劣：PyTorch以灵活调试见长，TensorFlow强在工业部署，JAX凭借函数式编程崭露头角，PaddlePaddle则在中文生态独具优势，Darkne

2025-11-17 17:04:27 768

原创视觉进阶篇——二维码快速识别解码：多方案实现代码（Python与C++）

随着二维码越来越普及，很多竞赛中的子任务都出现了需要快速识别二维码的要求，有些是单纯使用二维码对应某一种类别信息，有的是将信息写入二维码，你需要进行解码获取二维码蕴含的信息从而做出决策和判断。学长这里从原理讲到不同方案的快速解码技术，单纯的二维码识别也可以当做一个目标检测去做。图像采集：通过摄像头捕获包含二维码的图像预处理：增强图像质量，提升识别成功率特征提取与定位：识别二维码位置和方向解码输出：解析二维码编码数据。

2025-11-16 23:32:54 719

原创视觉进阶篇——YOLOv5环境配置与训练评估（很长，请耐心）

从这篇开始我们正式进入基于深度学习的目标检测的领域。现在目标检测的模型非常之多，但是我还是喜欢让大家从yolov5学习，因为简单，并且容易去给大家讲解。从这章开始，将大家一起学习如何根据github上面的说明进行学习，以此抛转引玉，之后大家可以学着学习其他模型。请注意，我并不带大家一点一点吃透yolov5网络模型，这是你自己下去该学习的。根据之前的学习相信你现在应该已经有了以下基础环境忘记步骤的同学到墙边罚站去我们可以在pycharm中看到yolov5的文件夹结构，这时我们找到.md文件，一般来说g

2025-11-16 00:04:59 378

原创视觉进阶篇——模型训练常见问题

本文系统分析了机器学习中的三大关键问题：过拟合、欠拟合和梯度消失/爆炸。过拟合表现为模型在训练数据上表现优异但在测试数据上性能显著下降，可通过正则化、Dropout、早停和数据增强等方法解决。欠拟合则是模型无法充分学习训练数据模式，需通过增加模型复杂度、改进特征工程和调整超参数来优化。梯度消失/爆炸问题源于深层网络的链式法则计算，可采用ReLU激活函数、批归一化和残差连接等技术缓解。这些解决方案从理论和实践层面为提升模型性能提供了系统指导。

2025-11-15 20:59:26 1187

原创视觉进阶篇——机器学习训练过程（手写数字识别，量大管饱需要耐心）

很多同学对机器学习和深度学习训练的整体概念不清晰，实际上任意一个模型的训练都会经历共同的步骤。这篇文章以手写数字识别带你理解模型训练。手写数字识别是机器学习的“Hello World”，也是理解神经网络训练流程的最佳切入点。本文将从数据准备→模型构建→训练循环→评估预测，完整复现用三层全连接神经网络解决MNIST手写数字分类问题的过程。每一步都会解释“为什么这么做”，并附可运行的代码示例。MNIST是LeCun等人整理的手写数字数据集，包含：目标：训练一个模型，输入手写数字图片，输出对应的数字（多分类问题）

2025-11-15 02:18:51 1697 2

原创视觉学习篇——卷积与神经网络：从原理到应用（量大管饱）

本文系统阐述了卷积运算的数学原理及其多领域应用。首先介绍了连续和离散卷积的严格数学定义与核心性质（交换律、结合律等），通过图像滤波示例直观展示了卷积操作。重点分析了卷积在信号处理（音频降噪、通信调制）和计算机视觉（边缘检测、图像处理）中的典型应用场景，并配合Python代码实现。最后深入解析了卷积神经网络（CNN）的三大特性：局部感知、权值共享和平移不变性，揭示了卷积作为深度学习"视觉引擎"的核心机制。文章构建了从数学基础到工程实践的完整知识体系，为理解卷积在各领域的应用提供了系统框架。

2025-11-14 21:19:53 2252

原创视觉进阶篇—— PyTorch 安装

本文详细介绍了在Ubuntu系统上安装PyTorch的两种方式（Conda和Pip）。对于初学者推荐使用Conda安装，它能自动管理CUDA环境并实现版本隔离。文章分别讲解了CPU版和GPU版的安装方法，重点说明了Conda安装时常见问题的解决方案，如缺少MKL库等。同时对比了Pip安装的优缺点，指出其需要手动配置CUDA环境的局限性。最后强调了验证安装成功的关键步骤，确保GPU可被正确调用。全文提供了从环境检查到安装验证的完整流程，帮助读者避开常见安装陷阱。

2025-11-13 20:50:36 905

原创视觉学习篇——机器学习模型评价指标

机器学习模型评价指标指南本文系统梳理了机器学习不同任务的评价指标体系，帮助开发者科学评估模型性能。分类任务中，重点分析了准确率的局限性，推荐使用F1-Score、AUC等更全面的指标；回归任务对比了MSE、MAE和R²的特点；目标检测强调mAP的核心地位；语义分割则关注mIoU和Dice系数。文章特别指出评价指标选择的四大黄金法则：任务导向、业务需求、多指标结合和陷阱规避。理解这些指标不仅能客观评估模型，更能为调优提供明确方向，是机器学习项目不可或缺的关键环节。

2025-11-13 09:51:08 1005

原创视觉学习篇——理清机器学习：分类、流程与技术家族的关系

清晨打开手机，刷到感兴趣的新闻推荐；上班刷脸打卡，系统精准识别你的脸；电商APP弹出“你可能喜欢的商品”——这些习以为常的场景，背后都是机器学习在驱动。但你真的懂机器学习吗？它有哪些分支？和深度学习、强化学习是什么关系？如何用一套通用流程解决实际问题？本文将从基础定义切入，拆解机器学习的核心分类，梳理通用工作流程，并用“原理+示例”讲透技术家族的关系。即使你是刚入门的小白，也能建立完整的知识框架。业务目标：给新用户推送护肤品广告，提升转化率；

2025-11-12 17:47:53 1165

原创 ROS1基础入门：从零搭建机器人通信系统（Python/C++）

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。ROS（Robot Operating System）是机器人领域的“瑞士军刀”，通过分布式节点通信和模块化设计，解决了机器人软件开发中的复杂性问题。本文将从工作空间搭建开始，手把手带你实现话题发布/订阅服务请求/响应和参数服务器配置，并提供完整的Python/C++代码示例与调试技巧。话题：适合传感器数据流（如激光雷达、摄像头）。服务：适合需要即时反馈的操作（如导航目标设定）。

2025-11-11 22:11:16 799

原创实验室入门——因安装Ubuntu系统误删Windows 11系统的windows11系统安装方法（含因RST无法扫描到硬盘的解决办法）

本文介绍了解决Windows 11/10安装过程中因RST VMD模式导致硬盘无法识别的问题。主要内容包括：1) RST VMD技术原理及其导致的安装程序"罢工"原因；2) 详细安装步骤，包括制作多系统U盘和下载系统镜像；3) 关键解决方案——在PE环境下手动加载英特尔RST VMD驱动；4) 后续使用建议。文章不仅提供具体操作指南，还深入解析了技术背景，帮助用户理解问题本质并掌握解决方法。通过这种方法，既解决了安装问题，又能保留RST的高级功能。

2025-11-04 17:53:33 833

原创视觉学习篇——OpenCV实战：用HSV实现颜色识别（从原理到调节器+代码）

大家好久不见~，出走一个星期归来继续写博客了。在计算机视觉中，颜色识别是最基础却最核心的任务之一（比如垃圾分类、物体追踪、工业分拣）。相比RGB模型，更适合颜色处理——它将颜色分解为“色调、饱和度、明度”三个感知维度，能大幅降低光照变化的影响。对于初学者来说，颜色识别是一个很好的实战任务，这里我会给出一个使用的颜色调节器和实战代码，最后仍然会给到真正应用起来的c++代码。本文通过HSV颜色调节器帮你直观理解HSV模型，再通过颜色识别代码教你如何用OpenCV实现实时颜色检测。

2025-10-31 17:04:52 1392

原创实验室入门——ubuntu20.04安装ros和ros2全流程

摘要：本文详细介绍了在Ubuntu20.04系统上安装ROS Noetic（ROS1长期支持版）和ROS2 Foxy（ROS2长期支持版）的全流程。内容涵盖系统环境检查、软件源配置、安装步骤、环境变量设置及功能验证，并提供了ROS1与ROS2桥接的测试方法。针对网络问题给出了换源建议，通过乌龟仿真和发布-订阅示例验证安装成功。最后提出版本共存管理建议，为机器人开发环境搭建提供完整指导，适合初学者快速上手ROS开发。

2025-10-22 22:09:31 2358

原创视觉学习篇——色域通道：原理、场景与实战代码

本文深入解析了RGB、CMYK、HSV、HSL、YUV、YCbCr、Lab等常见色域的原理、数学表示及适用场景。RGB采用加性混色模型，适用于屏幕显示；CMYK基于减法混色，主要用于印刷；HSV/HSL更贴近人类感知，适合颜色调整和物体识别；YUV/YCbCr分离亮度与色度，广泛应用于视频编码；Lab色域覆盖人眼可见光范围最广，是颜色科学的基准。文章还提供了Python（OpenCV/PIL）和C++（OpenCV）的实战代码，包括色域转换、通道分离和图像增强等操作，帮助开发者在不同场景下灵活运用颜色空间。

2025-10-21 15:55:29 1050

原创视觉学习篇——图像存储格式

图像存储格式直接影响处理性能、存储和传输效率。主流格式包括：1）RGB系列，直观但冗余大；2）YUV系列，适合视频编码，通过分离亮度和色度实现高效压缩；3）NV12/NV21，移动端常用，内存占用低。不同格式适用于不同场景：RGB用于显示和编辑，YUV420用于视频编码，NV12用于实时视频流。掌握格式转换底层原理和优化技巧（如内存对齐、SIMD指令）可显著提升效率。Python（OpenCV）和C++（FFmpeg）提供便捷的格式转换接口。

2025-10-21 15:54:54 1264

原创视觉进阶篇——图像数据增强从原理到实战（python/c++实现）

这里开启我们的进阶教程——数据增强。这里我们单指二维图像增强，又可以称作图像处理操作。这一讲我会直接从平面图像底层讲到代码实现并给出python和c++的具体实现可以给自己更多自由发挥的空间。这一讲不要指望看一篇就能学会，我还是作抛砖引玉，更加具体的东西需要大家自己下去慢慢体会。对于原始数据规模较小的情况，我们应该优先用强增强（Cutout、Mixup、RandAugment），增加样本的多样性；如果数据本身规模就很大，那我们用基础增强即可，避免过度扰动对模型造成不必要干扰。

2025-10-21 15:27:00 1572

原创视觉学习篇——关于图像压缩

《图像压缩技术原理与应用解析》摘要：图像压缩通过去除冗余信息在保证视觉质量的前提下大幅降低数据量，是计算机视觉领域的核心技术。本文系统阐述了图像压缩的必要性（存储压力、传输效率、计算资源优化）、应用场景（网页/医疗/视频流等）及技术原理（有损vs无损），重点对比了JPEG/WebP/PNG等主流格式的特性。针对实战需求，提供了Python(Pillow)和C++(OpenCV)的压缩代码示例，并给出格式选择的决策依据。文章特别指出，在带宽受限场景（如智能车竞赛）中，合理的图像压缩可显著改善传输延迟问题。

2025-10-20 16:38:44 1093

原创视觉学习篇——认识常见图像格式

这篇带大家简单认识一下常见的二维图像格式和创建方法，其中会涉及图像原理方面的知识，这为我们后续数据增强为简单的基础。文章中也会给出相关代码示例可以帮助大家更好的理解数字图像所有图像格式的本质都是像素信息的存储方式，理解以后你可以根据任务选择合适的格式（比如需要透明选RGBA，需要小文件选索引色）；同时避免通道顺序的坑（比如OpenCV的BGR顺序）；以及更好地处理图像数据（比如读取JPEG后转为RGB再输入模型）。

2025-10-20 15:50:58 1007

原创视觉入门篇——计算机视觉基础（超级全配置源码编译opencv4.8.0+contri+CUDA、CUDNN支持）

本文详细介绍了OpenCV（开源计算机视觉库）的编译安装过程。内容涵盖：1）OpenCV的基本概念和应用领域；2）在Ubuntu系统下从源码编译OpenCV4.8.0的完整步骤，包括环境准备、依赖安装、源码下载、CMake参数配置（重点说明CUDA相关参数）和编译安装；3）常见问题解决方法；4）安装后的验证方法。特别针对NVIDIA显卡用户提供了CUDA加速配置指南，并给出精简版CMake配置方案。整个过程强调参数调整和问题排查，适合需要定制化安装OpenCV的用户参考。

2025-10-19 22:38:48 1409

原创视觉学习篇——认识VOC和COCO等数据集格式

本文介绍了深度学习中常见的五种数据集格式及其特点。PASCAL VOC格式采用XML文件存储，结构清晰，适用于目标检测和分类任务；YOLO格式使用TXT文件，简洁高效，专为YOLO系列模型设计；COCO格式通过JSON文件支持多任务学习，功能全面但结构复杂；TFRecord是TensorFlow推荐的二进制格式，适合大规模训练；LMDB/LevelDB作为键值存储数据库，读取速度快但不可直接编辑。每种格式都有其适用场景和优缺点，选择合适的数据格式对提升训练效率和工程化部署至关重要。

2025-10-19 16:58:14 1827

原创视觉学习篇——Labelimg学习

本文介绍了使用labelimg工具进行图像标注的完整流程。首先说明了标注工作对深度学习模型训练的重要性，详细讲解了labelimg工具的安装方法（建议创建conda虚拟环境）和基本操作界面。重点演示了标注过程：包括打开图像文件夹、设置标签保存路径、使用快捷键进行标注（W创建选区，D/A切换图片）等步骤。文章还提供了标注标准建议（留适当空白）、常见问题解答（如删除标签、切换标注模式）以及格式转换方法（VOC/YOLO/ML）。最后强调标注质量直接影响模型效果，提醒初学者保持耐心和细致，确保标注数据准确可靠。

2025-10-19 16:33:27 962

原创视觉入门篇——深度学习环境部署（ubuntu系统conda环境配置）

本文介绍了深度学习环境配置中的关键工具安装指南。首先详细讲解了PyCharm的安装与配置过程，包括社区版下载、解压安装、创建桌面快捷方式等步骤。接着重点介绍了三种Conda发行版（Anaconda、Miniconda、Miniforge）的特点和安装方法，其中Miniforge因其轻量化和更快的依赖解析速度被推荐使用。文章提供了清华源加速下载和GitHub镜像加速下载的技巧，并展示了通过终端命令完成安装和验证Python环境的完整流程。这些工具为后续深度学习开发提供了必要的环境支持。

2025-10-17 20:54:01 1914

原创视觉入门篇——深度学习环境部署（ubuntu系统安装cmake3.26）

在我们后续学习过程中，尤其是在环境部署方面，为了追求效益大多数使用的是c/c++。cmake是常用的c/c++编译工具，很多时候大家在编译别人的代码时都会受限于cmake的最小版本，在ubuntu20.04中cmake的稳定版本是3.16.3有时候并不能完全满足cmake的需求，因此我们需要安装较新的版本。好啦，cmake安装完毕，请借助它多多使用c/c++吧。

2025-10-16 21:32:22 928

原创视觉入门篇——深度学习环境部署（ubuntu系统安装TensorRT）

本文介绍了TensorRT的安装与配置方法，重点讲解了如何选择合适版本并通过tar包方式在Linux系统上安装TensorRT 10.8。文章详细说明了环境变量配置、测试验证步骤，以及Python支持包的安装注意事项。同时提醒读者注意版本兼容性问题，建议根据实际需求选择CUDA和TensorRT版本，并提供了版本共存时的切换方案。对于边缘计算设备用户，文章建议后续可考虑介绍JetPack版本升级方法。

2025-10-16 18:13:43 1071

原创视觉入门篇——深度学习环境部署（ubuntu系统安装cudnn）

摘要：本文详细介绍了如何安装NVIDIA专为GPU加速深度学习设计的CUDNN库。首先需要注册NVIDIA账号并下载适配CUDA版本的CUDNN压缩包（如CUDA12.2对应cudnn-linux-x86_64-8.9.7.29）。解压后，将lib和include文件夹内容复制到CUDA安装目录（如/usr/local/cuda-12.2），最后执行sudo ldconfig更新环境变量即完成安装。文章强调CUDNN是通过提供高效神经网络算子实现来加速训练的重要组件，安装过程需注意Linux权限管理。

2025-10-14 19:22:23 1211

原创视觉入门篇——深度学习环境部署（ubuntu系统安装CUDA）

CUDA安装与配置指南摘要本文介绍了NVIDIA CUDA工具包的安装与配置方法。CUDA是NVIDIA提供的GPU并行计算平台，包含编译器、库和工具，广泛应用于AI和HPC领域。安装步骤包括：1)根据驱动版本选择合适的CUDA版本；2)通过命令行下载安装包；3)运行安装程序并设置环境变量。关键点包括：安装路径默认为/usr/local/cuda-xx.x，需在.bashrc中添加PATH和LD_LIBRARY_PATH环境变量，并通过source命令更新。最后验证安装成功的命令是nvcc -V。文章还

2025-10-13 21:04:04 2441 2

原创视觉入门篇——深度学习环境部署（Ubuntu系统安装nvidia显卡驱动）

摘要：本文详细介绍了在Ubuntu系统中安装NVIDIA显卡驱动的步骤，包括禁用默认驱动、下载官方驱动、安装依赖项及使用.run文件安装的方法。文章强调了安装专用驱动的重要性，并提供了常见问题的解决方案，适合需要配置深度学习环境的用户参考。

2025-10-13 18:33:15 1335

原创实验室入门之ubuntu系统初配置（持续更新）

本文介绍了Ubuntu双系统安装后的简单配置。首先提醒用户谨慎进行系统升级以避免重装系统。其次详细讲解了如何将默认的国外软件源更换为国内镜像源（如清华、阿里云、中科大等），提供了图形化和命令行两种方法，并附上了具体操作步骤和源地址。最后解释了双系统时间不同步的原因（Windows采用本地时间，Ubuntu采用UTC时间），但未给出解决方案。文章风格轻松幽默，包含大量截图和详细操作指引，适合Ubuntu新手参考。

2025-10-13 15:55:20 1009

原创视觉学习篇——CPU、GPU、NPU和BPU

本文介绍了计算机视觉领域常用的处理器类型及其评价指标。CPU部分重点讲解了制作工艺、时钟频率、核心数量等性能指标；GPU部分分析了浮点运算能力、CUDA核心数量、显存容量等深度学习相关参数；最后简要介绍了NPU和BPU两种专用AI处理器，包括它们在精度、算子适配性等方面的特点与局限性。文章强调在实际应用中，需要根据具体场景选择适合的处理器，并指出NPU/BPU虽然存在不足，但在边缘计算和自动驾驶领域展现出良好发展前景。全文以通俗易懂的方式帮助读者建立对各类处理器的基本认知框架。

2025-09-29 18:14:57 1080

原创工具——巡线标注程序

本文分享了一个用于图像标注的Python工具代码，主要用于智能车巡线项目中黑线中心点的标注。该工具支持PNG/JPG格式的彩色图像输入，输出为包含坐标(x,y)的TXT标签文件。程序具有自动检测未标注图片、鼠标点击标注、进度显示等功能，支持快捷键操作（上一张/下一张/删除/退出）。代码还提供了标注多个点的扩展功能。该工具简化了目标检测任务中的图像标注流程，特别适用于地平线智能车等项目的开发需求。

2025-09-29 16:54:34 859

原创实验室入门之安装ubuntu20.04双系统

本文分享了在Windows电脑上安装Ubuntu 20.04双系统的详细教程。作者基于实验室技术需求（兼容ROS1/ROS2）推荐使用Ubuntu 20.04，并对比了虚拟机方案的局限性。教程包含U盘格式化、镜像下载、系统烧录、分区设置等关键步骤，特别强调了EFI引导分区和存储空间的分配技巧。针对常见问题如WiFi驱动缺失提供了解决方案，并建议新手采用双系统以获得更好的操作体验。文章最后提醒读者这不是保姆级教程，鼓励在遇到问题时主动探究原因，培养独立解决问题的能力。

2025-09-28 17:37:03 1137 2

原创 Jetson系列——设置微雪USB声卡为默认声卡

【摘要】本文介绍了在Jetson系列开发板上配置微雪USB声卡为默认声卡的方法。该声卡兼容多种Jetson开发板，具有输入/输出功能和3.5mm耳机接口。文章分析了可能导致配置失败的四种情况：关闭桌面显示、使用欺骗器远程配置、音量设置错误以及系统玄学问题。虽然官方wiki提供了详细教程，但实际使用中仍可能遇到问题。作者结合自身参赛经验（曾获冠军）和实验室调试案例，为需要语音播报功能的开发者提供了实用参考。配置成功后，该方案可稳定用于比赛中的语音播报需求。

2025-09-26 15:20:40 642

原创工具——图像和标签重新命名升序

本文介绍了一个图像和标签文件批量重命名的Python工具，主要解决数据增强后文件命名混乱的问题。该工具通过多线程并行处理，支持对图像文件夹（folder1）和标签文件夹（folder2）中的匹配文件进行数字升序重命名，起始数字可自定义。核心功能包括自动匹配文件对、多进程重命名操作、进度条显示和错误处理。使用ProcessPoolExecutor实现并行处理，tqdm库显示进度，适合处理大规模数据集（上万文件）。程序还会自动处理命名冲突，将冲突文件移至临时目录。该工具特别适用于计算机视觉项目中需要批量整理数据

2025-09-26 15:05:39 378

空空如也

空空如也