那年一路北-优快云博客

原创 YOLOv8模型修改与CA注意力机制详解

CA（Coordinate Attention）注意力机制是一种结合空间信息和通道信息的注意力方法，它能够增强模型对目标区域的关注，提高检测精度。

2025-03-19 19:11:00 979

原创 YOLOv8 OBB 旋转目标检测模型详解与实践

本文详细介绍了YOLOv8 OBB模型的结构、损失函数、关键代码以及自定义 OBB 目标检测的完整流程。旨在深入理解 YOLOv8 OBB 的工作原理，并应用到实际旋转目标检测任务中。

2025-03-18 21:06:56 803

原创 YOLOv8 Pose模型详解与关键代码走查

姿态估计是计算机视觉中的一个重要任务，主要用于检测图像或视频中人物或物体的关键点位置。动作识别：用于体育分析、智能健身、游戏互动等场景。行为分析：监控系统、自动驾驶、医疗康复等领域。AR/VR：增强现实（AR）和虚拟现实（VR）设备的交互。机器人控制：提升机器人对人体动作的理解能力。YOLOv8 Pose 结合目标检测与关键点检测，使得单阶段推理更加高效，适用于实时任务。

2025-03-14 14:33:44 974

原创 YOLOv8模型介绍与开发环境搭建

目标检测(Detect)实例分割(Segment)姿态估计(Pose)旋转目标检测(Obb)YOLOv8 模型包括输入层和输出层，采用 CSP 和 SPPF 模块，提升模型连续性。

2025-03-14 14:04:53 704

YOLOv8 作为当前先进的目标检测、实例分割和分类模型，不仅在训练和推理方面表现出色，还支持多种部署平台和优化方法，以满足不同的应用场景。本文将详细介绍 YOLOv8 的部署方式，包括 OpenVINO、ONNX Runtime、TensorRT，以及如何进行模型优化，以实现更快的推理速度和更低的计算资源占用。一、YOLOv8 模型导出（Export）在部署之前，需要先将 YOLOv8 训练得到的模型转换为适用于不同推理框架的格式。ONNX（适用于 ONNX Runtime、TensorRT）

2025-03-07 07:00:00 854

原创 YOLOv8 实例分割详解

实例分割（Instance Segmentation）是计算机视觉中的一项关键任务，它不仅可以检测物体的位置，还能为每个目标生成精确的像素级掩码。YOLOv8 在目标检测的基础上，新增了实例分割（segmentation）功能，使得该模型可以高效地进行语义分割和目标分割任务。本文将详细介绍如何使用 YOLOv8 进行实例分割，包括数据准备、模型训练、推理、评估及优化等内容。YOLOv8 的实例分割版本采用了基于掩码（Mask-Based）的分割方法，结合目标检测的能力，预测每个目标的精确轮廓。它的主要特性如

2025-03-06 07:00:00 1868

原创 YOLOv8 自定义目标检测

通过本文的介绍，读者可以了解如何使用 YOLOv8 训练自定义对象检测模型。YOLOv8 具备高效性和出色的出为结果，是目标检测领域的最佳选择之一。

2025-03-05 13:00:22 598

原创 YOLOv8模型结构详解

负责特征提取。进行特征融合，提高检测能力。负责最终的目标分类和回归。采用更高效的特征提取模块C2f（CSP2X）。采用BiFPN（双向特征金字塔网络）增强不同尺度的特征融合。采用FCOS风格的检测方法，提高了小目标检测性能。本文详细解析了YOLOv8的模型结构，包括Backbone（特征提取）、Neck（特征融合）和Head（最终检测）部分。YOLOv8的优化点包括C2f模块、BiFPN特征融合以及Anchor-Free检测头，使其在精度和速度上相较于前代模型有了显著提升。

2025-03-05 12:49:37 1901

原创 YOLOv8 ：从训练到部署推理

高效的 Backbone 结构：采用改进后的 C2f 模块，提高特征提取能力。Anchor-Free 预测：避免了 Anchor 相关的计算，简化了训练过程。动态感受野：通过 RepVGG 结构增强模型的适应性。支持多任务：可用于目标检测、实例分割和分类。

2025-03-05 12:40:30 1090

原创 YOLOv5 + CBAM：目标检测的进阶之路

输入层（Input）：用于接收输入图像，并进行归一化处理。Backbone：主要负责特征提取，采用 CSPDarknet 结构。Neck：用于特征增强，采用 FPN + PAN 结构。Head：完成最终的目标检测任务，包括边界框回归、类别预测等。本文介绍了如何在 YOLOv5 中引入CBAM 注意力机制，并通过实验验证了其有效性。CBAM 通过通道注意力和空间注意力增强了关键特征的提取能力，显著提高了目标检测性能。

2025-03-01 13:01:09 1015

原创 CBAM注意力机制详解与实现

在深度学习领域，注意力机制已成为提升模型性能的重要手段之一。CBAM（Convolutional Block Attention Module）作为一种轻量级且高效的注意力机制，被广泛应用于各种卷积神经网络中。CBAM（Convolutional Block Attention Module）是一种卷积块注意力模块，由通道注意力（Channel Attention）和空间注意力（Spatial Attention）两个子模块组成。

2025-02-28 16:19:33 3009

原创 YOLOv5 + SE注意力机制：提升目标检测性能的实践

YOLOv5以其高效性和准确性在目标检测中得到了广泛应用。Backbone：负责从输入图像中提取特征。Neck：通过特征融合提高模型的多尺度感知能力。Head：根据提取的特征进行预测。SE（Squeeze-and-Excitation）注意力机制是一种轻量级的注意力模块，旨在通过显式地建模通道间的依赖关系，提升模型的表示能力。Squeeze（压缩）：通过全局平均池化操作，将特征图的空间维度压缩为1，生成通道描述符。Excitation（激励）

2025-02-28 13:17:16 1466

原创 SE注意力机制详解：从原理到应用，全面解析Squeeze-and-Excitation模块

SE模块通过简单而有效的通道注意力机制，为CNN赋予了动态特征选择能力。多维注意力融合：结合空间、通道、时间维度。自适应压缩比：动态调整 rr 提升效率。跨模态扩展：应用于多模态任务（如图文检索）。

2025-02-27 20:59:15 1191

原创修改模型Backbone 、Neck 和Head ：以 Yolov5 结构为例

Yolov5模型主要由Backbone、Neck和Head三大部分组成，这三个部分协同工作，共同完成目标检测任务。Backbone负责提取图像的特征，Neck对特征进行融合和增强，Head则根据融合后的特征进行目标的预测和分类，一个模型若想得到优化，需要从以下三点着手：Backbone、Neck和Head。

2025-01-20 07:00:00 1110

原创深入探究 YOLOv5：从优势到模型导出全方位解析

YOLOv5提供了多种规模的模型，包括Small（YOLOv5s）、Medium（YOLOv5m）、Large（YOLOv5l）和XLarge（YOLOv5x）。这些模型在模型大小、推理速度和检测精度上各有特点，以满足不同应用场景的需求。YOLOv5s模型大小：FP16精度下仅为14MB，非常适合在资源有限的设备上部署，如移动设备或边缘设备。推理速度：在V100GPU上，推理速度可达2.2ms，能够实现快速的目标检测，满足实时性要求较高的应用。检测精度。

2025-01-19 19:38:02 1464

原创 PyTorch 框架 CV 开发：从数据处理到模型部署与可视化

PyTorch 中的数据处理是模型训练的基础，包提供了一系列用于数据加载和处理的工具。其中，Dataset是一个数据抽象类，它支持两种风格的数据表示：Map-style 和 Iterable-style。Map-style 数据集：需实现和__len__方法。方法根据索引idx获取数据集中的样本，通过访问即可获取对应的数据样本；__len__方法则返回数据集的大小。这种风格适用于可以通过索引快速访问的数据，如图片数据集，每个图片都有对应的索引，方便获取。Iterable-style 数据集。

2025-01-18 07:00:00 831

原创 PyTorch 卷积神经网络全解析：从原理到实践

卷积是一种数学运算，在信号处理、图像处理等领域有着广泛的应用。在深度学习中，卷积操作是卷积神经网络的核心组成部分。简单来说，卷积可以理解为 “输入 + 脉冲 = 输出”，其运算过程包括翻转、移位、相乘和相加。以一维离散卷积为例，假设有输入序列 [2, 3, 0, 5, 6, 7, 1, 8, 2, 9, 0] 和卷积核 [1, 1, 1]，计算过程如下：通过这样的计算，卷积操作可以提取输入数据中的特征。

2025-01-17 11:37:19 912

原创 PyTorch 基础数据集：从理论到实践的深度学习基石

下面演示如何加载自定义的图像数据集。

2025-01-17 10:59:52 1493

原创深度解析人工神经网络：信息流动、训练挑战与优化策略

人工神经网络的迅猛发展推动了深度学习在各个领域的应用，尤其是在计算机视觉、自然语言处理等任务中取得了巨大的突破。

2025-01-17 07:00:00 836

原创深度学习基础：自动梯度、线性回归与逻辑回归的 PyTorch 实践

本文介绍了深度学习中的自动梯度、线性回归和逻辑回归的原理与 PyTorch 实现。自动梯度为深度学习模型的训练提供了高效的计算方法，线性回归和逻辑回归分别适用于数值预测和分类问题。通过掌握这些基础知识，可以为深入学习更复杂的深度学习模型和算法奠定坚实的基础。在实际应用中，可以根据具体问题的需求，灵活运用这些方法，并进一步优化模型，以实现更好的性能。

2025-01-16 14:50:25 1005

原创基于残差网络的车辆属性识别：从数据到部署的全流程实践

本次使用的车辆数据集为 BIT-Vehicle Dataset，该数据集包含 6 种车辆类型，共计 9850 张图像，数据集中的 VehicleInfo.mat 文件存储了车辆的相关信息。这个数据集为我们的车辆属性识别任务提供了丰富的样本基础。学习残差网络的要义，记录使用残差网络实现车辆属性识别的过程，包括车辆数据集的准备、模型的设计与训练以及模型在 OpenVINO 中的部署与预测。深入理解这一技术的实现原理和应用方法。

2025-01-16 14:09:12 1068

原创基于 Pytorch 的全卷积网络人脸表情识别：从数据到部署的实战之旅

除了公开数据集，我们还可以创建自己的自定义表情数据集。本次使用的自定义表情数据集包含 4300 张人脸表情图像，涵盖了八种表情类别，分别是 ["neutral", "anger", "disdain", "disgust", "fear", "happy", "sadness", "surprise"]，图像大小均为 64x64。import os# 示例用法data_dir = "your_data_dir" # 替换为实际数据集路径])上述代码首先定义了一个类，继承自Dataset类。在。

2025-01-16 12:33:52 1221

原创利用Torchvision中Mask-RCNN实现实例分割

import osboxes = []target = {我分析了Mask-RCNN模型的架构，从Mask-RCNN模型的原理出发，结合PyTorch实现了对象检测与实例分割的完整流程，包括模型构建、自定义数据集、模型训练及预测可视化。

2025-01-15 15:57:59 1416 2

原创使用Torchvision框架实现对象检测：从Faster-RCNN模型到自定义数据集，训练模型，完成目标检测任务。

输入图像# 推理# 可视化结果plt.show()Pascal VOC：以XML文件存储标注信息。MS COCO：以JSON文件存储标注信息。为了使用自定义数据集，需继承__len__：返回数据集大小。：返回单个样本的数据和标注。import osboxes = []labels.append(1) # 假设只有一个类。

2025-01-15 15:34:25 792

原创利用ResNet18实现缺陷图像分类的训练与部署

ResNet18是ResNet家族中的一员，其网络结构深度适中，适合在小型数据集上快速收敛。ResNet通过引入“残差模块”解决了深度网络中梯度消失的问题，是深度学习图像分类的经典模型之一。本文中使用的数据集是NEU表面缺陷数据库，包含6种类型的表面缺陷图像：夹杂、划痕、压入、氧化皮、裂纹、麻点和斑块。通过ResNet18，我们可以高效完成缺陷图像的分类任务。模型训练阶段强调数据的预处理和网络结构的调整，而部署阶段则注重模型格式的转换与推理框架的选择。优化模型性能：通过迁移学习或调优超参数提高模型精度。

2025-01-15 14:45:26 511

weixin_52603404的博客