视觉学习必备知识
文章平均质量分 94
需要掌握的碎片知识点
月下倩影时
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
视觉学习篇——模型推理部署:从“炼丹”到“上桌”
在看这篇文章之前,我默认你已经跑通了训练代码,手里有一个.pt或.pth的模型权重文件,正摩拳擦掌地想把它用起来。训练只是长征第一步,部署才是真正的战场!你以为训练完就结束了?为什么部署比训练难得多?训练环境和生产环境根本就是两个世界!维度训练环境生产环境硬件8xGPU服务器可能只有CPU,甚至手机NPU延迟几百ms也能忍必须<30ms,否则用户体验炸裂吞吐量一个一个来高并发,每秒处理成百上千请求功耗插着电,随便造手机要省电,嵌入式设备功耗敏感稳定性崩了就重启7x24小时不能挂。原创 2025-11-17 19:29:23 · 806 阅读 · 0 评论 -
视觉学习篇——认识深度学习框架
本文探讨了深度学习框架的发展与应用。文章首先以生动类比说明框架的必要性,指出其提供的自动微分、GPU加速等功能让研究者从底层实现中解放。随后梳理了框架发展史:从早期手工编码(2012前)、Caffe主导(2013-2015),到PyTorch与TensorFlow双雄争霸(2015-2018),再到JAX等新势力崛起(2020后)。重点对比了主流框架的优劣:PyTorch以灵活调试见长,TensorFlow强在工业部署,JAX凭借函数式编程崭露头角,PaddlePaddle则在中文生态独具优势,Darkne原创 2025-11-17 17:04:27 · 768 阅读 · 0 评论 -
视觉学习篇——卷积与神经网络:从原理到应用(量大管饱)
本文系统阐述了卷积运算的数学原理及其多领域应用。首先介绍了连续和离散卷积的严格数学定义与核心性质(交换律、结合律等),通过图像滤波示例直观展示了卷积操作。重点分析了卷积在信号处理(音频降噪、通信调制)和计算机视觉(边缘检测、图像处理)中的典型应用场景,并配合Python代码实现。最后深入解析了卷积神经网络(CNN)的三大特性:局部感知、权值共享和平移不变性,揭示了卷积作为深度学习"视觉引擎"的核心机制。文章构建了从数学基础到工程实践的完整知识体系,为理解卷积在各领域的应用提供了系统框架。原创 2025-11-14 21:19:53 · 2254 阅读 · 0 评论 -
视觉学习篇——OpenCV实战:用HSV实现颜色识别(从原理到调节器+代码)
大家好久不见~,出走一个星期归来继续写博客了。在计算机视觉中,颜色识别是最基础却最核心的任务之一(比如垃圾分类、物体追踪、工业分拣)。相比RGB模型,更适合颜色处理——它将颜色分解为“色调、饱和度、明度”三个感知维度,能大幅降低光照变化的影响。对于初学者来说,颜色识别是一个很好的实战任务,这里我会给出一个使用的颜色调节器和实战代码,最后仍然会给到真正应用起来的c++代码。本文通过HSV颜色调节器帮你直观理解HSV模型,再通过颜色识别代码教你如何用OpenCV实现实时颜色检测。原创 2025-10-31 17:04:52 · 1398 阅读 · 0 评论 -
视觉学习篇——机器学习模型评价指标
机器学习模型评价指标指南 本文系统梳理了机器学习不同任务的评价指标体系,帮助开发者科学评估模型性能。分类任务中,重点分析了准确率的局限性,推荐使用F1-Score、AUC等更全面的指标;回归任务对比了MSE、MAE和R²的特点;目标检测强调mAP的核心地位;语义分割则关注mIoU和Dice系数。文章特别指出评价指标选择的四大黄金法则:任务导向、业务需求、多指标结合和陷阱规避。理解这些指标不仅能客观评估模型,更能为调优提供明确方向,是机器学习项目不可或缺的关键环节。原创 2025-11-13 09:51:08 · 1006 阅读 · 0 评论 -
视觉学习篇——关于图像压缩
《图像压缩技术原理与应用解析》 摘要:图像压缩通过去除冗余信息在保证视觉质量的前提下大幅降低数据量,是计算机视觉领域的核心技术。本文系统阐述了图像压缩的必要性(存储压力、传输效率、计算资源优化)、应用场景(网页/医疗/视频流等)及技术原理(有损vs无损),重点对比了JPEG/WebP/PNG等主流格式的特性。针对实战需求,提供了Python(Pillow)和C++(OpenCV)的压缩代码示例,并给出格式选择的决策依据。文章特别指出,在带宽受限场景(如智能车竞赛)中,合理的图像压缩可显著改善传输延迟问题。原创 2025-10-20 16:38:44 · 1096 阅读 · 0 评论 -
视觉学习篇——色域通道:原理、场景与实战代码
本文深入解析了RGB、CMYK、HSV、HSL、YUV、YCbCr、Lab等常见色域的原理、数学表示及适用场景。RGB采用加性混色模型,适用于屏幕显示;CMYK基于减法混色,主要用于印刷;HSV/HSL更贴近人类感知,适合颜色调整和物体识别;YUV/YCbCr分离亮度与色度,广泛应用于视频编码;Lab色域覆盖人眼可见光范围最广,是颜色科学的基准。文章还提供了Python(OpenCV/PIL)和C++(OpenCV)的实战代码,包括色域转换、通道分离和图像增强等操作,帮助开发者在不同场景下灵活运用颜色空间。原创 2025-10-21 15:55:29 · 1051 阅读 · 0 评论 -
视觉学习篇——Labelimg学习
本文介绍了使用labelimg工具进行图像标注的完整流程。首先说明了标注工作对深度学习模型训练的重要性,详细讲解了labelimg工具的安装方法(建议创建conda虚拟环境)和基本操作界面。重点演示了标注过程:包括打开图像文件夹、设置标签保存路径、使用快捷键进行标注(W创建选区,D/A切换图片)等步骤。文章还提供了标注标准建议(留适当空白)、常见问题解答(如删除标签、切换标注模式)以及格式转换方法(VOC/YOLO/ML)。最后强调标注质量直接影响模型效果,提醒初学者保持耐心和细致,确保标注数据准确可靠。原创 2025-10-19 16:33:27 · 964 阅读 · 0 评论 -
视觉学习篇——图像存储格式
图像存储格式直接影响处理性能、存储和传输效率。主流格式包括:1)RGB系列,直观但冗余大;2)YUV系列,适合视频编码,通过分离亮度和色度实现高效压缩;3)NV12/NV21,移动端常用,内存占用低。不同格式适用于不同场景:RGB用于显示和编辑,YUV420用于视频编码,NV12用于实时视频流。掌握格式转换底层原理和优化技巧(如内存对齐、SIMD指令)可显著提升效率。Python(OpenCV)和C++(FFmpeg)提供便捷的格式转换接口。原创 2025-10-21 15:54:54 · 1267 阅读 · 0 评论 -
视觉学习篇——认识常见图像格式
这篇带大家简单认识一下常见的二维图像格式和创建方法,其中会涉及图像原理方面的知识,这为我们后续数据增强为简单的基础。文章中也会给出相关代码示例可以帮助大家更好的理解数字图像所有图像格式的本质都是像素信息的存储方式,理解以后你可以根据任务选择合适的格式(比如需要透明选RGBA,需要小文件选索引色);同时避免通道顺序的坑(比如OpenCV的BGR顺序);以及更好地处理图像数据(比如读取JPEG后转为RGB再输入模型)。原创 2025-10-20 15:50:58 · 1008 阅读 · 0 评论 -
视觉学习篇——认识VOC和COCO等数据集格式
本文介绍了深度学习中常见的五种数据集格式及其特点。PASCAL VOC格式采用XML文件存储,结构清晰,适用于目标检测和分类任务;YOLO格式使用TXT文件,简洁高效,专为YOLO系列模型设计;COCO格式通过JSON文件支持多任务学习,功能全面但结构复杂;TFRecord是TensorFlow推荐的二进制格式,适合大规模训练;LMDB/LevelDB作为键值存储数据库,读取速度快但不可直接编辑。每种格式都有其适用场景和优缺点,选择合适的数据格式对提升训练效率和工程化部署至关重要。原创 2025-10-19 16:58:14 · 1832 阅读 · 0 评论 -
视觉学习篇——理清机器学习:分类、流程与技术家族的关系
清晨打开手机,刷到感兴趣的新闻推荐;上班刷脸打卡,系统精准识别你的脸;电商APP弹出“你可能喜欢的商品”——这些习以为常的场景,背后都是机器学习在驱动。但你真的懂机器学习吗?它有哪些分支?和深度学习、强化学习是什么关系?如何用一套通用流程解决实际问题?本文将从基础定义切入,拆解机器学习的核心分类,梳理通用工作流程,并用“原理+示例”讲透技术家族的关系。即使你是刚入门的小白,也能建立完整的知识框架。业务目标:给新用户推送护肤品广告,提升转化率;原创 2025-11-12 17:47:53 · 1167 阅读 · 0 评论 -
视觉学习篇——CPU、GPU、NPU和BPU
本文介绍了计算机视觉领域常用的处理器类型及其评价指标。CPU部分重点讲解了制作工艺、时钟频率、核心数量等性能指标;GPU部分分析了浮点运算能力、CUDA核心数量、显存容量等深度学习相关参数;最后简要介绍了NPU和BPU两种专用AI处理器,包括它们在精度、算子适配性等方面的特点与局限性。文章强调在实际应用中,需要根据具体场景选择适合的处理器,并指出NPU/BPU虽然存在不足,但在边缘计算和自动驾驶领域展现出良好发展前景。全文以通俗易懂的方式帮助读者建立对各类处理器的基本认知框架。原创 2025-09-29 18:14:57 · 1082 阅读 · 0 评论
分享