- 博客(28)
- 问答 (1)
- 收藏
- 关注
原创 YOLOv8模型修改与CA注意力机制详解
CA(Coordinate Attention)注意力机制是一种结合空间信息和通道信息的注意力方法,它能够增强模型对目标区域的关注,提高检测精度。
2025-03-19 19:11:00
979
原创 YOLOv8 OBB 旋转目标检测模型详解与实践
本文详细介绍了YOLOv8 OBB模型的结构、损失函数、关键代码以及自定义 OBB 目标检测的完整流程。旨在深入理解 YOLOv8 OBB 的工作原理,并应用到实际旋转目标检测任务中。
2025-03-18 21:06:56
803
原创 YOLOv8 Pose模型详解与关键代码走查
姿态估计是计算机视觉中的一个重要任务,主要用于检测图像或视频中人物或物体的关键点位置。动作识别:用于体育分析、智能健身、游戏互动等场景。行为分析:监控系统、自动驾驶、医疗康复等领域。AR/VR:增强现实(AR)和虚拟现实(VR)设备的交互。机器人控制:提升机器人对人体动作的理解能力。YOLOv8 Pose 结合目标检测与关键点检测,使得单阶段推理更加高效,适用于实时任务。
2025-03-14 14:33:44
974
原创 YOLOv8模型介绍与开发环境搭建
目标检测(Detect)实例分割(Segment)姿态估计(Pose)旋转目标检测(Obb)YOLOv8 模型包括输入层和输出层,采用 CSP 和 SPPF 模块,提升模型连续性。
2025-03-14 14:04:53
704
原创 YOLOv8 的部署与优化
YOLOv8 作为当前先进的目标检测、实例分割和分类模型,不仅在训练和推理方面表现出色,还支持多种部署平台和优化方法,以满足不同的应用场景。本文将详细介绍 YOLOv8 的部署方式,包括 OpenVINO、ONNX Runtime、TensorRT,以及如何进行模型优化,以实现更快的推理速度和更低的计算资源占用。一、YOLOv8 模型导出(Export)在部署之前,需要先将 YOLOv8 训练得到的模型转换为适用于不同推理框架的格式。ONNX(适用于 ONNX Runtime、TensorRT)
2025-03-07 07:00:00
854
原创 YOLOv8 实例分割详解
实例分割(Instance Segmentation)是计算机视觉中的一项关键任务,它不仅可以检测物体的位置,还能为每个目标生成精确的像素级掩码。YOLOv8 在目标检测的基础上,新增了实例分割(segmentation)功能,使得该模型可以高效地进行语义分割和目标分割任务。本文将详细介绍如何使用 YOLOv8 进行实例分割,包括数据准备、模型训练、推理、评估及优化等内容。YOLOv8 的实例分割版本采用了基于掩码(Mask-Based)的分割方法,结合目标检测的能力,预测每个目标的精确轮廓。它的主要特性如
2025-03-06 07:00:00
1868
原创 YOLOv8 自定义目标检测
通过本文的介绍,读者可以了解如何使用 YOLOv8 训练自定义对象检测模型。YOLOv8 具备高效性和出色的出为结果,是目标检测领域的最佳选择之一。
2025-03-05 13:00:22
598
原创 YOLOv8模型结构详解
负责特征提取。进行特征融合,提高检测能力。负责最终的目标分类和回归。采用更高效的特征提取模块C2f(CSP2X)。采用BiFPN(双向特征金字塔网络)增强不同尺度的特征融合。采用FCOS风格的检测方法,提高了小目标检测性能。本文详细解析了YOLOv8的模型结构,包括Backbone(特征提取)、Neck(特征融合)和Head(最终检测)部分。YOLOv8的优化点包括C2f模块、BiFPN特征融合以及Anchor-Free检测头,使其在精度和速度上相较于前代模型有了显著提升。
2025-03-05 12:49:37
1901
原创 YOLOv8 :从训练到部署推理
高效的 Backbone 结构:采用改进后的 C2f 模块,提高特征提取能力。Anchor-Free 预测:避免了 Anchor 相关的计算,简化了训练过程。动态感受野:通过 RepVGG 结构增强模型的适应性。支持多任务:可用于目标检测、实例分割和分类。
2025-03-05 12:40:30
1090
原创 YOLOv5 + CBAM:目标检测的进阶之路
输入层(Input):用于接收输入图像,并进行归一化处理。Backbone:主要负责特征提取,采用 CSPDarknet 结构。Neck:用于特征增强,采用 FPN + PAN 结构。Head:完成最终的目标检测任务,包括边界框回归、类别预测等。本文介绍了如何在 YOLOv5 中引入CBAM 注意力机制,并通过实验验证了其有效性。CBAM 通过通道注意力和空间注意力增强了关键特征的提取能力,显著提高了目标检测性能。
2025-03-01 13:01:09
1015
原创 CBAM注意力机制详解与实现
在深度学习领域,注意力机制已成为提升模型性能的重要手段之一。CBAM(Convolutional Block Attention Module)作为一种轻量级且高效的注意力机制,被广泛应用于各种卷积神经网络中。CBAM(Convolutional Block Attention Module)是一种卷积块注意力模块,由通道注意力(Channel Attention)和空间注意力(Spatial Attention)两个子模块组成。
2025-02-28 16:19:33
3009
原创 YOLOv5 + SE注意力机制:提升目标检测性能的实践
YOLOv5以其高效性和准确性在目标检测中得到了广泛应用。Backbone:负责从输入图像中提取特征。Neck:通过特征融合提高模型的多尺度感知能力。Head:根据提取的特征进行预测。SE(Squeeze-and-Excitation)注意力机制是一种轻量级的注意力模块,旨在通过显式地建模通道间的依赖关系,提升模型的表示能力。Squeeze(压缩):通过全局平均池化操作,将特征图的空间维度压缩为1,生成通道描述符。Excitation(激励)
2025-02-28 13:17:16
1466
原创 SE注意力机制详解:从原理到应用,全面解析Squeeze-and-Excitation模块
SE模块通过简单而有效的通道注意力机制,为CNN赋予了动态特征选择能力。多维注意力融合:结合空间、通道、时间维度。自适应压缩比:动态调整 rr 提升效率。跨模态扩展:应用于多模态任务(如图文检索)。
2025-02-27 20:59:15
1191
原创 修改模型Backbone 、Neck 和Head :以 Yolov5 结构为例
Yolov5模型主要由Backbone、Neck和Head三大部分组成,这三个部分协同工作,共同完成目标检测任务。Backbone负责提取图像的特征,Neck对特征进行融合和增强,Head则根据融合后的特征进行目标的预测和分类,一个模型若想得到优化,需要从以下三点着手:Backbone、Neck和Head。
2025-01-20 07:00:00
1110
原创 深入探究 YOLOv5:从优势到模型导出全方位解析
YOLOv5提供了多种规模的模型,包括Small(YOLOv5s)、Medium(YOLOv5m)、Large(YOLOv5l)和XLarge(YOLOv5x)。这些模型在模型大小、推理速度和检测精度上各有特点,以满足不同应用场景的需求。YOLOv5s模型大小:FP16精度下仅为14MB,非常适合在资源有限的设备上部署,如移动设备或边缘设备。推理速度:在V100GPU上,推理速度可达2.2ms,能够实现快速的目标检测,满足实时性要求较高的应用。检测精度。
2025-01-19 19:38:02
1464
原创 PyTorch 框架 CV 开发:从数据处理到模型部署与可视化
PyTorch 中的数据处理是模型训练的基础,包提供了一系列用于数据加载和处理的工具。其中,Dataset是一个数据抽象类,它支持两种风格的数据表示:Map-style 和 Iterable-style。Map-style 数据集:需实现和__len__方法。方法根据索引idx获取数据集中的样本,通过访问即可获取对应的数据样本;__len__方法则返回数据集的大小。这种风格适用于可以通过索引快速访问的数据,如图片数据集,每个图片都有对应的索引,方便获取。Iterable-style 数据集。
2025-01-18 07:00:00
831
原创 PyTorch 卷积神经网络全解析:从原理到实践
卷积是一种数学运算,在信号处理、图像处理等领域有着广泛的应用。在深度学习中,卷积操作是卷积神经网络的核心组成部分。简单来说,卷积可以理解为 “输入 + 脉冲 = 输出”,其运算过程包括翻转、移位、相乘和相加。以一维离散卷积为例,假设有输入序列 [2, 3, 0, 5, 6, 7, 1, 8, 2, 9, 0] 和卷积核 [1, 1, 1],计算过程如下:通过这样的计算,卷积操作可以提取输入数据中的特征。
2025-01-17 11:37:19
912
原创 深度解析人工神经网络:信息流动、训练挑战与优化策略
人工神经网络的迅猛发展推动了深度学习在各个领域的应用,尤其是在计算机视觉、自然语言处理等任务中取得了巨大的突破。
2025-01-17 07:00:00
836
原创 深度学习基础:自动梯度、线性回归与逻辑回归的 PyTorch 实践
本文介绍了深度学习中的自动梯度、线性回归和逻辑回归的原理与 PyTorch 实现。自动梯度为深度学习模型的训练提供了高效的计算方法,线性回归和逻辑回归分别适用于数值预测和分类问题。通过掌握这些基础知识,可以为深入学习更复杂的深度学习模型和算法奠定坚实的基础。在实际应用中,可以根据具体问题的需求,灵活运用这些方法,并进一步优化模型,以实现更好的性能。
2025-01-16 14:50:25
1005
原创 基于残差网络的车辆属性识别:从数据到部署的全流程实践
本次使用的车辆数据集为 BIT-Vehicle Dataset,该数据集包含 6 种车辆类型,共计 9850 张图像,数据集中的 VehicleInfo.mat 文件存储了车辆的相关信息。这个数据集为我们的车辆属性识别任务提供了丰富的样本基础。学习残差网络的要义,记录使用残差网络实现车辆属性识别的过程,包括车辆数据集的准备、模型的设计与训练以及模型在 OpenVINO 中的部署与预测。深入理解这一技术的实现原理和应用方法。
2025-01-16 14:09:12
1068
原创 基于 Pytorch 的全卷积网络人脸表情识别:从数据到部署的实战之旅
除了公开数据集,我们还可以创建自己的自定义表情数据集。本次使用的自定义表情数据集包含 4300 张人脸表情图像,涵盖了八种表情类别,分别是 ["neutral", "anger", "disdain", "disgust", "fear", "happy", "sadness", "surprise"],图像大小均为 64x64。import os# 示例用法data_dir = "your_data_dir" # 替换为实际数据集路径])上述代码首先定义了一个类,继承自Dataset类。在。
2025-01-16 12:33:52
1221
原创 利用Torchvision中Mask-RCNN实现实例分割
import osboxes = []target = {我分析了Mask-RCNN模型的架构,从Mask-RCNN模型的原理出发,结合PyTorch实现了对象检测与实例分割的完整流程,包括模型构建、自定义数据集、模型训练及预测可视化。
2025-01-15 15:57:59
1416
2
原创 使用Torchvision框架实现对象检测:从Faster-RCNN模型到自定义数据集,训练模型,完成目标检测任务。
输入图像# 推理# 可视化结果plt.show()Pascal VOC:以XML文件存储标注信息。MS COCO:以JSON文件存储标注信息。为了使用自定义数据集,需继承__len__:返回数据集大小。:返回单个样本的数据和标注。import osboxes = []labels.append(1) # 假设只有一个类。
2025-01-15 15:34:25
792
原创 利用ResNet18实现缺陷图像分类的训练与部署
ResNet18是ResNet家族中的一员,其网络结构深度适中,适合在小型数据集上快速收敛。ResNet通过引入“残差模块”解决了深度网络中梯度消失的问题,是深度学习图像分类的经典模型之一。本文中使用的数据集是NEU表面缺陷数据库,包含6种类型的表面缺陷图像:夹杂、划痕、压入、氧化皮、裂纹、麻点和斑块。通过ResNet18,我们可以高效完成缺陷图像的分类任务。模型训练阶段强调数据的预处理和网络结构的调整,而部署阶段则注重模型格式的转换与推理框架的选择。优化模型性能:通过迁移学习或调优超参数提高模型精度。
2025-01-15 14:45:26
511
原创 PyTorch迁移学习与指南框架
迁移学习(Transfer Learning)是深度学习中的一个重要概念,它主要应用于相同或相似的任务。在实际应用中,我们经常会遇到数据规模较小的情况,这使得从头开始训练一个模型变得困难。迁移学习通过重用模型的特征提取部分,然后对模型的最后几层进行微调,从而在小规模数据集上快速提升模型性能。
2025-01-15 14:37:12
1095
原创 U-Net模型结构与语义分割道路裂纹项目
U-Net是一种非常经典且广泛应用于图像分割任务的卷积神经网络(CNN)。最早由Olaf Ronneberger等人在2015年提出,U-Net专为生物医学图像的语义分割设计,尤其擅长处理具有少量标注数据的分割任务。它的名称来源于其具有U形对称结构的网络架构。U-Net结构的独特之处在于采用了编码器(Contracting Path)和解码器(Expansive Path)相结合的方式,通过跳跃连接(skip connection)有效保留了高分辨率的特征。下面详细介绍U-Net的模型结构。
2025-01-14 19:34:49
1351
原创 图像语义分割概念与上采样技术详解
图像语义分割技术的核心在于像素级分类,这一过程需要高效的网络架构与上采样技术的支持。从经典的FCN到更为先进的PSPNet,各类网络在性能与效率之间不断取得平衡。而在上采样过程中,直接插值、反卷积和Unpooling等技术各有优劣,适合不同的应用场景。延伸阅读深入理解卷积神经网络(CNN)的工作原理。探索语义分割任务在自动驾驶中的具体应用。学习优化反卷积过程以减轻棋盘效应的影响。
2025-01-14 16:06:43
464
空空如也
Eclipse 与sql server数据库加载驱动成功,但是连接数据库失败
2022-04-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人