自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(255)
  • 收藏
  • 关注

原创 第7章:基于MLCA注意力机制的Swin Transformer图像分类项目

本文提出了一种结合多级通道注意力(MLCA)机制的SwinTransformer图像分类系统。该系统在SwinTransformer骨干网络基础上,创新性地引入了双路特征融合的MLCA模块,通过平均池化和最大池化捕捉不同粒度特征,并利用轻量级MLP学习通道重要性权重。实验采用端到端训练流程,包含数据增强、Adam优化器(学习率0.0001)和交叉熵损失函数,支持实时监控6个关键指标。系统具有模块化设计、可视化训练过程和自动保存最佳模型等特点,在保持SwinTransformer强大特征提取能力的同时,显著提

2025-12-23 14:28:46 574

原创 机器学习算法之动量法:优化梯度下降的“惯性”策略

动量法通过引入“惯性”机制改进梯度下降算法,利用历史梯度的指数加权平均作为动量,使参数更新更平滑稳定。相比普通SGD,动量法在稳定方向加速收敛,在震荡方向抑制波动,有效提升训练效率。实验表明,动量法能更快接近最优值,尤其适用于高维非凸优化问题。虽然需要调整动量系数等超参数,但其计算效率高、实现简单的特点使其成为深度学习优化的重要基础方法。

2025-12-16 18:37:21 329

原创 线性回归入门:从原理到实战代码详解

本文介绍了机器学习中的基础算法线性回归,通过冰淇淋销量预测的简单案例,解释了线性回归的原理和数学公式(最小二乘法)。文章详细展示了如何用Python实现学生成绩预测的实战项目,包括数据预处理、模型训练、评估指标(R²和MSE)及多种可视化方法(热图、散点图、3D回归平面)。最后总结了线性回归的优缺点:简单高效但只能捕捉线性关系,适合作为基准模型和探索性分析工具。全文提供了完整的代码示例和结果解读指南。

2025-12-09 08:28:47 604

原创 第六章:图像分类系--从模型训练到GUI应用部署

本文介绍了一个基于PyTorch的完整图像分类系统,包含模型训练、评估可视化和GUI界面三大模块。系统创新性地融合了ViT与Inception深度可分离卷积架构,通过双流特征提取机制提升分类性能。项目采用模块化设计,提供从数据预处理到模型部署的全流程解决方案,包括专业级数据增强、FocalLoss优化、学习率调度等关键技术。系统还实现了丰富的可视化分析工具和用户友好的图形界面,支持多种图像格式的分类预测。该项目展示了深度学习技术的工程化实践,兼具学术研究和工业应用价值。

2025-12-01 14:29:18 756

原创 第五章:基于UNet-FPN的医学图像分割:从数据准备到模型训练的全流程详解

本文介绍了一个基于UNet和特征金字塔网络(FPN)的医学图像分割系统。该系统包含完整的数据预处理、模型构建、训练和评估流程,支持多类别分割任务。核心模型采用改进的UNet架构,结合FPN增强多尺度特征提取能力。系统提供数据加载、模型训练、指标计算和可视化功能,支持自动标签映射、数据增强和实时训练监控。通过Dice系数等指标评估模型性能,并保存最佳模型和训练曲线。该系统为医学图像分割任务提供了灵活高效的解决方案,适用于器官分割、病变检测等多种应用场景。

2025-12-01 14:19:54 1105

原创 TransUNet创新改进:港口船只分割

本文提出一种基于改进TransUNet的港口船只图像分割系统,通过融合Transformer的全局建模和CNN局部特征提取能力,引入空间注意力机制和特征金字塔注意力模块,有效提升复杂港口场景下的分割精度。系统采用模块化设计,包含数据预处理、模型训练、推理部署和图形界面四个核心模块,创新性地使用混合损失函数和余弦退火学习率调度。实验表明,该系统在测试集上达到mIoU 0.85+和mDice 0.88+,推理速度<50ms/图像,具备良好的实时性和鲁棒性,为港口监控提供了一套完整的技术解决方案。

2025-11-07 18:43:46 646

原创 基于可变形卷积的UNet图像分割系统设计与实现

本文提出了一种改进的UNet图像分割系统,通过集成可变形卷积模块,显著提升了模型处理复杂几何形状的能力。系统采用模块化设计,包含数据预处理、网络架构、训练优化和评估可视化四大核心组件,支持端到端的深度学习流程。创新点包括:1)动态可变形卷积增强特征提取;2)自动标签映射机制;3)多类别分割支持。实验表明,该系统在形变目标分割任务中表现优异,具有医疗影像、遥感解译等广泛应用前景。下载链接:https://download.youkuaiyun.com/download/2401_82355416/92099118

2025-10-10 13:37:23 931

原创 基于改进resnet和shufflenet结构图像分类项目详解

本文详细介绍了一个基于PyTorch的图像分类项目,包含数据预处理、模型构建、训练评估等完整流程。项目采用模块化设计,创新性地引入通道混洗机制和ShuffleBlock结构,结合ResNet预训练模型实现高效分类。重点包括差异化数据增强策略、自定义CNN模型架构、多指标评估体系以及训练可视化功能。项目具有完整的实验记录、自动模型选择、中文支持和设备自适应等工程亮点,为深度学习实践提供了优秀范例。该方案既可作为图像分类解决方案,也可作为项目开发模板,展示了PyTorch在计算机视觉任务中的实际应用。

2025-10-09 08:22:10 679

原创 基于Swin Transformer与SE模块融合的图像分类方法研究

本研究提出了一种融合SwinTransformer与SE注意力模块的图像分类方法。通过将SE模块集成到SwinTransformer架构中,实现了空间注意力和通道注意力的优势互补。系统包含完整的模型定义、数据处理、训练评估等模块,并创新性地引入特异度指标进行综合评估。实验结果表明,改进后的模型在准确率、F1分数等指标上均有提升,验证了该方法的有效性。代码设计模块化,为后续研究提供了可扩展的解决方案。

2025-09-26 09:15:11 678

原创 TensorFlow深度学习实战:从零开始构建你的第一个神经网络

本文详细介绍了如何使用TensorFlow构建和训练神经网络模型。首先讲解了TensorFlow 2.x的环境搭建和MNIST手写数字数据集的加载与预处理方法。接着带领读者逐步实现全连接神经网络(DNN)和卷积神经网络(CNN),包括模型构建、编译、训练和评估的全过程。文章还介绍了回调函数、训练过程可视化等高级技巧,并对比展示了两种网络在MNIST数据集上的表现差异。最后提出了进一步学习的方向,如更复杂数据集、高级网络架构和超参数调优等。该教程为深度学习初学者提供了完整的上手实践指南。

2025-09-12 15:25:18 1151 1

原创 resnet创新,ASPP模块的图像分类模型

本文介绍了使用PyTorch构建高效图像分类模型的完整流程。项目包含四个核心模块:模型定义(CNN+ASPP多尺度特征提取)、数据处理(增强与标准化)、训练工具(多维评估指标)和主训练脚本(可视化监控)。通过ASPP模块提升模型识别能力,采用数据增强策略增强泛化性,并实现准确率、F1分数等全面评估。模块化设计支持灵活扩展,适用于各类图像分类任务,为开发者提供了从数据加载到模型评估的完整解决方案。

2025-09-12 09:29:18 1096

原创 开学季干货:知识梳理与经验分享技术文章大纲

【文章摘要】本文针对学生群体提供开学季高效学习指南,涵盖知识管理、工具应用和时间管理三大维度。重点介绍结构化笔记法、思维导图工具及学科知识体系构建方法,推荐Anki、Notion等技术工具辅助学习,分享番茄工作法和OKR目标拆解技巧,并附计算机/文科专业实战案例。最后提示避免无效学习陷阱,提供免费电子书和公开课资源合集,助力学生提升学习效率。(150字)

2025-09-11 09:10:55 404

原创 SwinTransformer改进(15):与Inception模块的混合架构解析

本文提出了一种名为SwinInception的混合深度学习模型,创新性地结合了SwinTransformer的全局特征提取能力和Inception模块的多尺度特征融合优势。该模型采用Swin-B作为骨干网络,通过自定义Inception模块(包含1×1、3×3、5×5卷积和池化四个并行分支)处理不同尺度的特征,最后通过线性分类器输出结果。这种架构既保留了Transformer的全局上下文理解能力,又增强了局部特征捕捉效率,在计算成本和灵活性之间取得了平衡。文章详细介绍了模型结构、前向传播流程和潜在改进方向,

2025-08-10 11:30:00 177

原创 VisionTransformer改进(15):融合Inception模块

本文提出了一种改进的Vision Transformer(ViT)模型,通过集成Inception模块来增强多尺度特征提取能力。该模型在ViT-B/16架构基础上添加了自定义InceptionModule,包含四个并行分支(1x1、3x3、5x5卷积和3x3池化),并采用批归一化和ReLU激活。改进后的模型融合了ViT的全局建模能力和Inception的多尺度特征提取优势,特别适用于需要同时理解全局上下文和局部特征的任务。代码实现了灵活的输入处理、可定制的分类头,并支持预训练权重加载,为细粒度图像分类等任务

2025-08-10 07:05:17 144

原创 UNet 改进(40):Transformer与多尺度特征融合PFN

在这篇博客中,我将详细介绍一个改进版的UNet神经网络架构,它结合了传统的卷积操作、Transformer模块以及创新的多尺度特征融合技术(FPN块)。这个架构特别适合处理医学图像分割等需要精确像素级预测的任务。

2025-08-06 10:32:25 666 2

原创 UNet 改进(39):结合残差连接与CBAM注意力机制的unet模型

本文提出了一种改进的UNet架构,通过融合残差连接和CBAM注意力机制来增强医学图像分割性能。该网络保留UNet的U形结构,但将基础模块替换为ResidualBlock和CBAM的组合:残差块通过快捷连接解决梯度消失问题,CBAM模块结合通道和空间注意力机制突出重要特征。整体架构采用编码器-解码器设计,包含5个下采样和上采样阶段,通过跳跃连接融合多尺度特征。实验表明,这种改进显著提升了原始UNet的性能,特别适用于需要精细边界的医学图像分割任务。

2025-08-06 08:47:28 478

原创 SwinTransformer改进(14):集成MLCA注意力机制的Swin Transformer模型

本文提出了一种结合多级通道注意力(MLCA)机制的SwinTransformer模型。MLCA模块通过双路池化(平均池化和最大池化)和共享MLP结构,高效生成通道注意力权重,增强特征表示能力。该模块被集成到SwinTransformer中,替换原始分类头并保留预训练兼容性。模型通过unsqueeze/squeeze操作适配维度,实现了即插即用的注意力机制集成。这种设计在保持计算效率的同时提升了特征选择能力,适用于细粒度分类等需要强特征表示的场景,为视觉Transformer模型提供了有效的注意力增强方案。

2025-07-28 20:15:10 383

原创 VisionTransformer改进(14):使用多级通道注意力(MLCA)机制

本文提出了一种结合Vision Transformer(ViT)与多级通道注意力(MLCA)机制的改进模型。MLCA模块通过双池化分支(平均池化和最大池化)和轻量级MLP结构来增强特征通道的关注能力。ViTWithMLCA将MLCA机制嵌入ViT架构中,在patch嵌入层后和每个Transformer编码器层间插入注意力模块。该设计保持ViT全局建模能力的同时,通过多层级注意力机制提升模型性能。实验表明,这种模块化结构能有效增强特征表示,且计算成本可控,适用于多种图像分类任务。

2025-07-28 11:23:54 121

原创 UNet 改进(38):融合多尺度输入与可变形卷积、门控特征融合的医学图像Unet分割网络

本文提出了一种改进的UNet架构用于医学图像分割,通过多尺度输入处理、可变形卷积和门控特征融合三大创新模块显著提升性能。多尺度输入模块同时处理原始分辨率与下采样图像,可变形卷积增强形变建模能力,门控融合机制实现智能特征组合。实验证明该架构能有效处理医学图像中的复杂结构,代码实现展示了完整的网络结构设计,包括关键组件的详细实现。该改进方法不仅适用于医学图像分析,还可拓展至其他密集预测任务,为图像分割领域提供了新的技术思路。

2025-07-27 10:50:04 457

原创 UNet 改进(37):结合残差稠密块+轴向注意力的改进

ResAxialUNet是一种创新的UNet变体,通过结合残差稠密块和轴向注意力机制,显著提升了图像分割性能。编码器采用残差稠密块增强特征提取能力,解码器引入轴向注意力机制捕捉长距离依赖关系。该架构保留了UNet的多尺度特征融合优势,同时通过局部特征重用和全局上下文建模,实现了更精确的分割效果。模型设计注重计算效率,轴向注意力通过行列分解降低复杂度,残差连接确保训练稳定性,为医学影像等分割任务提供了高效解决方案。

2025-07-27 10:37:34 207

原创 UNet 改进(36):引入ELAN-FR模块(通道注意力+空间注意力)

本文提出了一种改进的UNet网络架构,融合了通道注意力、空间注意力和ELAN-FR模块。该网络通过多尺度特征提取与混合注意力机制,增强了特征表示能力。核心创新包括:1)通道注意力模块学习通道重要性权重;2)空间注意力模块聚焦重要区域;3)ELAN-FR模块整合多尺度特征与注意力机制。相比传统UNet,该架构具有更强的自适应特征选择能力,同时保持计算效率,适用于医学图像分割等像素级预测任务。实验表明,网络能有效处理256×256输入图像,输出相同分辨率的预测结果。

2025-07-14 20:49:40 222

原创 UNet 改进(35):融合Simplicial Attention模块

本文提出了一种改进的UNet神经网络架构,结合传统UNet结构和创新的SimplicialAttention机制用于图像分割。该模型包含三个核心组件:DoubleConv双重卷积模块负责特征提取,SimplicialAttention简化注意力机制捕捉空间依赖关系,以及包含编码器-解码器结构的主网络。通过在多个下采样阶段插入注意力模块,模型能够自适应关注重要区域,同时保持UNet原有的特征拼接优势。实验表明,这种设计在维持计算效率的同时,有望提升复杂场景下的分割性能,特别是对小目标的处理效果。

2025-07-14 14:18:12 230

原创 用 PyTorch 构建液态神经网络(LNN):下一代动态深度学习模型

液态神经网络(LNN)是一种受生物神经系统启发的深度学习模型,具有动态连接、持续学习和时间适应性等特点,特别适用于连续数据流处理。本文介绍了LNN的核心组件(液态层、动态突触和连续时间处理),并详细展示了使用PyTorch实现LNN的关键步骤,包括定义液态神经元模型、构建完整网络和训练过程。虽然LNN在时间序列处理方面表现出色,但也面临训练复杂性和参数调优等挑战。该技术在自动驾驶、机器人控制等领域具有广泛应用前景,是深度学习领域的前沿发展方向。

2025-06-26 20:13:33 1712

原创 AI大模型中的数据清洗与预处理技术详解:从理论到实践

本文将深入探讨AI大模型训练中的数据清洗与预处理技术,通过具体案例展示实际操作流程,帮助读者理解如何为大型AI模型准备高质量的训练数据。

2025-06-26 20:04:03 2943

原创 TensorFlow深度学习实战:构建神经网络全指南

本文详细介绍了使用TensorFlow构建神经网络的全流程,从基础概念到高级应用。主要内容包括:1) TensorFlow环境搭建与核心概念;2) 通过MNIST手写数字识别构建全连接网络;3) 性能优化方法如CNN、正则化、数据增强;4) 高级主题包括自定义模型、迁移学习;5) CIFAR-10实战项目;6) TensorFlow生态系统工具。文章强调了数据预处理的重要性,提供了代码示例,并建议从小模型开始逐步优化。该指南适合深度学习初学者系统掌握TensorFlow应用。

2025-06-25 21:27:09 1207

原创 深入理解残差网络(ResNet):原理与PyTorch实现

残差网络(ResNet)通过跳跃连接创新性地解决了深度神经网络退化问题。其核心采用y=F(x)+x的残差学习结构,允许网络学习输入输出间的差值而非直接映射。ResNet包含不同深度的网络配置(如18/34/50层),通过堆叠残差块构建,其中关键组件包括卷积层、批归一化和跳跃连接。PyTorch实现中,残差块处理维度变化并保留原始输入。ResNet的优势在于优化梯度传播、保障恒等映射和提高参数效率。训练需配合He初始化、余弦退火学习率等技巧。这种结构突破了深层网络训练瓶颈,成为计算机视觉领域里程碑式突破。

2025-06-25 21:13:49 1254 1

原创 UNet 改进(34):带有GHPA模块的UNet网络架构

本文提出了一种改进的UNet结构,主要创新在于引入GHPA(门控哈达玛积注意力)模块。该模块通过多头注意力机制和门控结构增强特征表示能力,使网络能自适应聚焦关键区域。网络保持UNet的经典编码器-解码器架构,包含5层下采样和上采样路径,每层包含带有可选GHPA模块的双卷积块。测试显示该网络在256×256输入图像上运行良好。该改进特别适用于医学图像和遥感图像等需要精确边界分割的任务,注意力机制的引入有效提升了复杂背景和微小目标的处理能力。

2025-06-23 14:52:19 274

原创 VSCode主题设计大赛:Nebula Dark Pro

《NebulaDarkPro:专为开发者设计的深色主题》摘要 NebulaDarkPro是一款基于宇宙星云灵感设计的编程主题,通过科学的色彩工程(4.8:1精确对比度、三级亮度分层)显著降低视觉疲劳。测试显示85%用户认为其舒适度优于主流深色主题。特色功能包括: 动态色温调节(夜间自动降低蓝光) 12类语义智能高亮(如金色函数名#FFD700、青绿色类名#4EC9B0) 脉冲式错误预警系统 技术实现采用WCAG AA级色板(主背景#0F0F1A)和色盲适配测试,特别优化了全栈开发语言支持,推荐搭配4K显示器

2025-06-17 18:38:24 818

原创 YOLOv8模型剪枝实战:DepGraph(依赖图)方法详解

本文详细介绍了基于DepGraph依赖图的YOLOv8模型剪枝方法。首先概述了模型剪枝的概念、类型及其重要性,然后深入解析了DepGraph依赖图的构建原理与剪枝流程。针对YOLOv8的架构特点,提供了完整的剪枝实战指南,包括环境准备、模型加载、依赖图构建、剪枝策略设计及微调等关键步骤。通过模型大小、推理速度和精度评估验证了剪枝效果,并分享了分层剪枝、渐进式剪枝等高级技巧。最后讨论了常见问题解决方案,展望了剪枝技术的未来发展方向,为YOLOv8在边缘设备的轻量化部署提供了实用方案。

2025-06-14 23:52:12 1825

原创 基于U-Net与可分离卷积的肺部分割技术详解

本文提出了一种基于改进U-Net架构的肺部分割方法,通过引入可分离卷积技术显著降低了模型复杂度。与传统U-Net相比,该方法减少了88%的参数量,提升38%的推理速度,同时保持0.971的Dice系数。该方法在LUNA16数据集和本地100例CT数据上验证了有效性,为临床诊断和手术规划提供了高效解决方案。未来将向三维分割和多模态融合方向拓展,以进一步提升分割精度和应用价值。

2025-06-14 23:44:02 936 1

原创 高效解决Java内存泄漏问题:方法论与实践指南

Java内存泄漏是一个隐蔽但极具破坏性的问题,尽管Java拥有自动垃圾回收机制,不当的对象引用保留仍会导致内存无法回收。常见模式包括静态集合持有、未关闭资源、监听器未注销等。检测手段包括监控GC活动、使用jstat/jmap等工具分析堆转储,并通过MAT等可视化工具诊断引用链。解决方案需结合代码修复(如改用弱引用、try-with-resources)和防御性措施(静态分析、内存监控)。典型案例分析表明,建立从开发到生产全流程的内存安全防护体系至关重要。通过工具链、流程规范和持续教育构建内存安全文化,才能有

2025-06-13 22:58:56 1276

原创 使用GpuGeek训练图像分类器:从入门到精通

本文详细介绍了如何利用GpuGeek云平台构建高效图像分类器的全流程。GpuGeek提供预装环境、强大GPU资源和用户友好界面,显著降低深度学习开发门槛。内容涵盖数据准备(收集、标注、增强)、模型构建(架构选择、损失函数设计)、训练优化(混合精度、分布式训练)以及部署应用(多种导出格式、API服务)。通过实战案例展示了平台在花卉分类任务中的优异表现(94.6%准确率),并分享了迁移学习、模型量化等进阶技巧。该平台为不同水平的开发者提供了一站式解决方案,有效平衡了模型性能与开发效率。

2025-06-13 22:45:02 1161

原创 ResNet改进(58):结合ResNet与MUSE注意力机制

本文提出了一种结合ResNet34架构与新型MUSE注意力机制的CNN模型。该模型在传统ResNet基础上引入了三处关键改进:(1)替换初始7×7卷积为3×3卷积;(2)在每个残差块后添加MUSE注意力模块;(3)设计的多尺度MUSE注意力机制融合了3×3/5×5/7×7并行卷积特征,并整合了通道注意力和空间注意力机制。模型通过PyTorch实现,支持加载预训练权重,适用于细粒度图像分类等需要精细特征提取的任务。测试表明输入224×224图像时可输出10类分类结果,其多尺度特征融合和双重注意力设计能有效捕捉

2025-06-12 08:08:21 229 1

原创 第48节:基于注意力机制改进的ResNet水果分类模型

本项目实现了一个结合注意力机制的改进型ResNet模型,专门针对水果图像分类任务。该模型在标准ResNet50架构基础上,引入了通道注意力和空间注意力机制,以增强模型对重要特征的提取能力,从而提高分类准确率。

2025-06-11 09:27:34 471

原创 ResNet改进(57):结合MobileViTv2注意力机制的改进

这个自定义网络基于ResNet34架构,并在每个残差块后添加了MobileViTv2注意力模块,形成了一种混合CNN-Transformer的架构。使用预训练的ResNet34作为基础网络在每个残差块后插入MobileViTv2注意力模块保持原始ResNet的分类头结构提供是否使用注意力模块的可选配置本文介绍的自定义ResNet网络通过引入MobileViTv2注意力模块,在保持CNN强大特征提取能力的同时,增加了对全局上下文的理解能力。

2025-06-11 08:18:15 301

原创 ResNet改进(56):引入大核注意力(LKA)

本文提出在ResNet中集成大核注意力(LKA)模块,构建高效视觉网络。LKA结合深度可分离卷积和大核膨胀卷积,有效捕捉长距离依赖关系,同时保持较低计算成本。实现方案通过5×5和7×7深度卷积加1×1通道混合的三层结构,可无缝嵌入ResNet各阶段。实验表明,该混合架构既保留ResNet特性又增强注意力机制,支持预训练权重微调。方法具有即插即用、计算高效等优势,为提升视觉任务性能提供了新思路。

2025-06-11 08:07:16 237

原创 ResNet改进(55):带有ExternalAttention的ResNet模型

这个实现基于PyTorch框架,主要特点包括:使用ResNet34作为基础架构加入了轻量级的ExternalAttention机制支持预训练权重加载可配置的注意力开关本文详细解析了一个结合ExternalAttention的ResNet34实现,该模型通过轻量级的注意力机制增强了传统CNN的特征提取能力,同时保持了ResNet的优秀特性。这种设计在多种视觉任务中都能带来性能提升,是计算机视觉领域的一个实用解决方案。

2025-06-10 08:27:59 109

原创 ResNet改进(54):带有EMSA模块的ResNet34实现

本文提出了一种结合高效多尺度注意力机制(EMSA)的改进ResNet34模型。EMSA模块通过多尺度卷积分支(1×1至15×15卷积核)和双重注意力机制(通道+空间注意力)增强特征提取能力。该模块被插入到标准ResNet34的每个残差块组后,可以灵活开关。实验表明,这种设计能有效提升模型在多尺度特征提取、重要区域聚焦和噪声鲁棒性方面的表现,特别适用于细粒度分类和复杂场景理解任务。代码实现完整,提供了可配置参数,便于在不同视觉任务中应用和优化。

2025-06-10 08:13:42 139

原创 UNet 改进(33):结合EfficientNet与UNet的强大分割模型

本文提出EfficientUNet模型,将EfficientNet的高效特征提取能力与UNet的精确分割架构相结合。模型采用EfficientNet预训练网络作为编码器,通过自定义解码器实现转置卷积上采样和跳跃连接,逐步恢复空间分辨率。核心组件包括DoubleConv模块(双卷积+批归一化+ReLU)和灵活的EfficientNet版本选择(支持b0/b4)。实验表明,该架构在保持高精度的同时提升了计算效率,特别适合资源受限的图像分割任务。模型输入输出尺寸匹配(如256×256→256×256),并可通过调

2025-06-09 08:20:50 731

原创 ResNet改进(53):带有ECA注意力机制的ResNet模型

本文提出了一种结合高效通道注意力(ECA)模块的改进ResNet模型。该模型基于ResNet34架构,核心创新在于每个残差块后添加了轻量级的ECA注意力模块,通过动态调整卷积核大小实现跨通道信息交互。模型采用3x3初始卷积减少计算量,支持预训练权重加载和自定义输出类别数,具有即插即用的特性。实验表明,ECA模块能有效增强特征表示能力而不显著增加计算负担,特别适用于资源受限的图像分类任务。代码结构模块化,便于扩展和修改,为计算机视觉任务提供了高性能的基线模型。

2025-06-09 08:09:12 558

yolov8+风力涡轮机+毕业设计&课程设计&项目开发+机器视觉

yolov8 实现的风力涡轮机图像检测完整项目python实现(毕业设计&课程设计&项目开发) 【数据集介绍】类别个数(1):风力涡轮机(共约2300张数据和标签) 训练自定义数据集摆放好数据后,更改mydata.yaml文件即可。训练或者推理的话,根据目标下编写的train和predict脚本实现即可。本项目还提供了预训练权重,可以根据不同的检测任务进行微调以达到好的检测精度。 关于yolov5改进介绍、或者如何训练,请参考: https://blog.youkuaiyun.com/qq_44886601/category_12605353.html yolov8训练数据的介绍: https://blog.youkuaiyun.com/qq_44886601/article/details/139810906

2025-12-18

风力涡轮机检测,目标检测数据,2k张数据,计算机视觉

风力涡轮机检测,目标检测数据,2k张数据,计算机视觉 类别个数【2】cable tower turbine等【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.youkuaiyun.com/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html】

2025-12-18

基于SK注意力机制的ViT图像分类系统,无人机拍摄的海滩废弃物图像,项目说明书

基于SK注意力机制的ViT图像分类系统,无人机拍摄的海滩废弃物图像,项目说明书 这套代码实现了一个融合SK(Selective Kernel)注意力机制的ViT(Vision Transformer)图像分类系统,通过创新的模型架构和完整的训练流程,为计算机视觉任务提供了高效精准的解决方案。系统核心采用ViT-B/16作为基础模型,在其分类头前插入自主研发的SKModule注意力模块,该模块通过多分支特征融合和动态权重分配机制(M=2个分支,压缩比r=16),显著提升了模型对多尺度特征的捕捉能力。实验表明,这种改进使模型在ImageNet等基准数据集上准确率提升3-5%,尤其擅长处理复杂背景下的细粒度分类任务。 系统采用工业级的数据处理流程,支持JPEG/PNG等多种图像格式,通过智能数据增强策略(包括随机裁剪、水平翻转和色彩抖动)有效提升模型泛化能力。训练模块实现了多维度指标监控体系,不仅跟踪常规的准确率和损失值,还创新性地引入特异度(Specificity)等医学影像分析常用指标,通过混淆矩阵动态计算各类别的真阴性率,为模型评估提供更全面的视角。独特的训练曲线可视化系统能同时展示6项关键指标(损失、准确率、精确率、召回率、特异度、F1分数)的实时变化,帮助开发者快速诊断模型性能瓶颈。 该框架具有三大技术亮点:首先,采用混合精度训练和CUDA加速,在单卡GPU上即可实现每秒120+图像的吞吐量;其次,创新的模型保存机制会自动保留验证集表现最佳的参数版本,并生成包含30+评估指标的详细报告;最后,模块化设计使系统能快速适配ResNet、EfficientNet等其他骨干网络。特别适合医疗影像分析、工业质检等需要高精度分类的场景,在测试中其对肺炎X光片的分类F1分数达到0.92,远超传统CNN方法。整套代码已优化为即插即用结构,只需修改配置文件即可应用于新的数据集

2025-12-17

废弃物识别和分类+空中垃圾检测+机器学习+回收或环境监测+无人机拍摄的海滩废弃物图像

计算机视觉数据:空中垃圾检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数1700,val数据总数170。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别5: { "0": "glass", "1": "plastic_bottle_takeaway_cup", "2": "retort_pouch", "3": "take_away_container", "4": "tin_aluminium_cans" }

2025-12-17

矿区语义分割+CV数据集+货车分割+1k数据集

矿区货车语义分割、语义分割数据集(约1000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 货车 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,700张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,300张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-17

深度学习数据集,热门街头美食识别,3600张数据集,食物识别

计算机视觉数据:热门街头美食分类、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数2500,val数据总数1100。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别20: Tacos Pizza Slice Burger Hot Dog Shawarma Falafel Currywurst Fish and Chips Pani Puri Bánh Mì Arepas Churros Pretzel Empanadas Kebab (Shish Kebab) Pad Thai Gelato Crepes Poutine Samosas

2025-12-17

旋转OBB数据集: 航拍小型车辆+大型车辆 +目标识别+5k张数据和标签

旋转OBB数据集: 航拍小型车辆+大型车辆 +目标识别+5k张数据和标签;旋转OBB数据集:

2025-12-17

【Resnet改进系列】基于resnet+ExternalAttention改进的图像分类项目+说明文档+热门食物识别

【Resnet改进系列】基于resnet+ExternalAttention改进的图像分类项目+说明文档+热门食物识别 本项目是一个基于PyTorch框架的深度学习图像分类系统。 采用卷积神经网络(CNN)实现完整的训练与评估流程。系统核心功能包括数据预处理、模型训练、性能评估和可视化分析,适用于多样化的图像分类任务。项目文件结构清晰,主要由train.py(主训练脚本)、data_utils.py(数据处理模块)和train_utils.py(训练评估工具)组成,支持命令行参数配置如数据路径、批次大小和学习率等。 数据预处理阶段通过ImageDataset类实现标准化操作:训练集采用随机裁剪、水平翻转和颜色增强等动态增强策略,验证集仅进行基础调整和归一化,均统一至224×224分辨率。训练流程支持GPU加速,自动记录损失值、准确率、精确率、召回率、特异度和F1分数六类指标,并在每轮训练后生成验证集评估报告。系统会动态保存最佳模型权重(.pth文件)至checkpoints目录,同时输出训练曲线图(含6项指标对比)和详细日志文件,便于监控过拟合/欠拟合现象。 用户可通过模块化设计灵活扩展功能:修改CNNModel类调整网络结构,自定义get_data_transforms()的数据增强策略,或增减calculate_metrics()的评估指标。项目要求数据集按类别分目录存放,依赖PyTorch、NumPy等基础库,建议合理设置batch_size以避免内存溢出。该系统整合了从数据加载到模型部署的全流程工具,兼具标准化流程与高度可定制性,为图像分类任务提供高效解决方案。

2025-12-17

YOLOV5+Swin-Transformer创新改进+道路异常检测+OPENCV实战+深度学习

基于YOLOV5【更换backbone为Swin-Transformer】对【道路异常】目标检测数据集的目标检测实战项目,包含代码、数据集,经测试,代码可以直接使用 【数据集介绍】道路异常图像数据,8类别:longitudinal crack - 0 longitudinal crack wide - 1 transverse crack - 2 transverse crack wide - 3 alligator crack - 4 alligator crack sunken - 5 pothole - 6 pothole deep - 7 训练集datasets-images-train:1900张图片和1900个标签txt文件组成 测试集datasets-images-val:480张图片和480个标签txt文件组成 【yolov5】项目总大小:166MB 项目迭代了100个epoch,在runs目录下保存了训练结果,训练最好的精度map0.5=0.84,map0.5:0.95=0.42。训练过程中会生成验证集的混淆矩阵,PR曲线、F1曲线等等runs/detect目录下保存了网络推理训练集的全部结果,推理效果很好 更多yolov5改进介绍、或者如何训练,请参考: https://blog.youkuaiyun.com/qq_44886601/category_12605353.html

2025-12-16

X射线影像+深度学习+牙齿语义分割+2000张数据和标签+多类别图像分割+深度学习

牙齿分割、语义分割数据集(约2000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255牙齿 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1400张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,600张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-16

道路异常检测+YOLO数据集+深度学习+2400张数据和标签

道路损坏检测、图像目标检测数据【已标注,约2400张数据和标签,YOLO 标注格式】 类别个数【8】:longitudinal crack - 0 longitudinal crack wide - 1 transverse crack - 2 transverse crack wide - 3 alligator crack - 4 alligator crack sunken - 5 pothole - 6 pothole deep - 7【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.youkuaiyun.com/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html】

2025-12-16

YOLOV5 + shufflenet改进实战+计算机视觉+马路垃圾检测+数据集+深度学习

YOLOV5 改进实战项目【更换骨干网络为shufflenet】对马路垃圾检测,包含代码、数据集。经测试,代码可以直接使用。 【yolov5】项目总大小:220 MB 本项目更换了yolov5骨干网络为官方实现的shufflenet网络,曾经在水果数据集上,简单训练了100个epoch,map指标为0.96,map0.5:0.95=0.92。 【如何训练】和yolov5一样的训练方法,摆放好datasets数据,然后更改yaml文件中的类别信息即可训练 【数据集】(数据分为分为训练集和验证集) 训练集datasets-images-train:4200张图片和4200个标签txt文件组成 验证集datasets-images-val:1700张图片和1700个标签txt文件组成 更多yolov5改进介绍、或者如何训练,请参考: https://blog.youkuaiyun.com/qq_44886601/category_12605353.html

2025-12-16

【unet改进实战】基于unet+深度可分离卷积mobilenet改进实现的X光牙齿图像语义分割+项目说明书+数据集

【unet改进实战】基于unet+深度可分离卷积mobilenet改进实现的【X光牙齿】图像语义分割+项目说明书+数据集 项目概述 本项目基于PyTorch框架构建了一个通用图像分割系统,全面支持二分类及多类别分割任务。 系统功能 该系统提供从数据预处理到模型训练、验证评估的全流程解决方案,具备高度可配置性和实用性: 数据处理:支持自定义图像和掩码文件格式(如.jpg、.png等),自动处理不连续标签值,集成多种数据增强技术提升模型泛化能力 模型架构:基于UNet实现,可通过参数灵活调整输入尺寸、卷积通道数等,兼容不同类别数量的分割任务(通过--num_classes参数指定) 训练功能:支持GPU加速,提供学习率、批次大小等超参数配置选项,实时记录损失曲线和评估指标(如IoU、Dice系数),自动保存最优模型权重 使用流程 按规范组织数据集(图像与掩码文件需名称对应,分别存放在images/masks子目录) 通过命令行参数启动训练,可指定: 数据路径(--data_dir) 学习率(--learning_rate) 标签映射规则(--label_mapping)等 系统输出包含: 模型权重文件(.pth) 训练曲线可视化图表 指标日志文件 注意事项 掩码图像应为单通道灰度图,标签值为整数 多分类任务推荐使用one-hot编码掩码 项目依赖主流科学计算库(PyTorch、NumPy)及可视化工具(Matplotlib),安装简便 应用领域 该系统适用于医学影像、遥感等领域的语义分割任务,兼顾易用性与扩展性。用户可通过调整UNet深度或添加注意力机制等方式进一步优化性能。 【项目说明书】包含完整代码实现与原理讲解:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html

2025-12-16

深度学习+垃圾检测+5000张数据和标签+YOLO 标注+人工智能

垃圾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】 类别个数【18】:Aluminium foil Bottle cap Bottle Broken glass Can Carton Cigarette Cup Lid Other litter Other plastic Paper Plastic bag - wrapper Plastic container Pop tab Straw Styrofoam piece Unlabeled litter 【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.youkuaiyun.com/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html】

2025-12-16

TransUnet 改进+注意力机制+CBAM模块+图像分割、语义分割+皮肤病识别+深度学习

TransUnet 改进:在Transformer块中加入CBAM模块的实现的皮肤病图像分割、语义分割 数据集采用【皮肤病图像分割】,数据在data目录下,划分了训练集和验证集。代码可直接运行 【改进部分】代码在TransUnet的Transformer中加入了CBAM模块。如果想要更换别的模块,只需要将CBAM替换即可 网络介绍:摆放好数据集,直接更改train脚本的参数即可,默认的epoch是100,学习率采用cos余弦退火算法,初始值0.01,衰减到0.00001。如果想在大尺度进行训练,修改img-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等,代码会对训练和验证集进行评估,结果保存runs下的json文件中。 网络推理的时候,会自动将inference/img下所有图像进行推理,并且保存在infer_get、show下,前者是推理gt阈值图像,后者是img+推理gt的掩膜效果 更多改进项目参本人【改进专栏】https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-15

机器视觉+皮肤病分割+1200张png标签+多类别分割+深度学习

皮肤病分割、图像分割数据集(约1200张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 1 皮肤病 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,900张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,380张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-15

盲道、障碍物识别+计算机视觉数据集+语义分割

盲道、障碍物识别、图像分割数据集(约3500张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 1 盲道 2 障碍物 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,230张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,80张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-15

家庭火灾检测+图像目标检测数据+5000张YOLO 标签+计算机视觉

家庭火灾检测、图像目标检测数据【已标注,约5000张数据和标签,YOLO 标注格式】 类别个数【1】fire【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.youkuaiyun.com/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html】

2025-12-15

Swin-Transformer+CBAM模块+多尺度特征融合+Focal loss分类项目+创新改进+计算机视觉+废弃物识别

基于Swin-Transformer改进CBAM模块+多尺度特征融合+Focal loss分类项目:废弃物识别 【项目简介】 代码主干网络采用Swin-Transformer +CBAM+多尺度特征融合改进网络。pretrained参数为是否采用官方预训练模型。为了做对比消融试验,优化器采用了Adam和SGD、AdamW三种。损失函数采用Focal loss、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。同时生成验证集的ROC、PR曲线,样本数量柱状图等。如果有测试集的话,会自动进行测试 【QT推理】直接运行qt脚本即可 分类改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-15

废弃物识别+深度学习+计算机视觉数据集+1w多张数据

计算机视觉数据:废弃物识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数9200,val数据总数3900。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别9: { "0": "Construction_Waste", "1": "Electronic_Waste", "2": "Glass_Waste", "3": "Medical_Waste", "4": "Metal_Waste", "5": "Organic_Waste", "6": "Paper_Cardboard_Waste", "7": "Plastic_Waste", "8": "Textile_Rubber_Waste" }

2025-12-15

TransUnet&Swin-Unet对比试验&医学分割&视盘视杯分割&完整项目

基于TransUnet和Swin-Unet 实现的医学图像语义分割对比项目:视盘视杯分割 数据集采用【视盘视杯分割】,数据在data目录下,划分了训练集和验证集。【代码可一键运行】 【介绍】分割网络为TransUnet和Swin-Unet (可以自行选择),学习率采用cos余弦退火算法。如果想在大尺度进行训练,修改base-size参数即可,优化器采用了AdamW。评估的指标为dice、iou、recall、precision、f1、pixel accuracy等等,代码会对训练和验证集进行评估,结果保存runs下的json文件中。 网络推理的时候采用可视化推理,运行infer脚本会打开本地网页,上传图片即可进行推理 更多医学图像语义分割实战:https://blog.youkuaiyun.com/qq_44886601/category_12816068.html 图像分类、语义分割网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html

2025-12-24

1600张视盘视杯分割+医学影像分割+深度学习

1600张视盘视杯分割+医学影像分割+深度学习 【标签信息, 0 - 视杯 128 - 视盘 255 - 背景 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,1200张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,480张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-24

MobileNetV3实战&轻量级模型&迁移学习&自适应学习&遥感土地图像分类项目

MobileNetV3实战&轻量级模型&迁移学习&自适应学习&遥感土地图像分类项目 该项目是一个基于MobileNet V3模型的图像分类系统,旨在通过深度学习技术实现高效的图像分类任务。系统主要由三个模块组成:模型训练、推理预测和工具函数。首先,train.py脚本负责模型的训练过程,用户可以通过命令行参数设置模型类型、优化器、学习率、批量大小等超参数。训练过程中,脚本会自动进行数据预处理、模型初始化、训练与验证循环,并保存最佳模型权重和训练日志。训练结束后,系统会生成损失曲线、准确率曲线、混淆矩阵、recall、F1、precision、ROC曲线和AUC值等可化结果,帮助用户评估模型性能。 其次,infer.py脚本用于推理预测,可以通过Streamlit提供的Web界面上传图像,系统会调用训练好的模型进行图像分类,并返回预测结果及其置信度。 关于AI改进参考:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html

2025-12-24

农村景观监测&土地覆盖标签&土地分类和自适应土地管理

农村景观监测&土地覆盖标签&土地分类和自适应土地管理 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数5000,val数据总数2100。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别6: Cropland Forest Water Body Built-up Area Grassland Barren Land

2025-12-24

基于YOLOV5目标检测改进&VGG模型&交通标志牌目标检测数据集&自动驾驶

YOLOV5+vgg16(小目标检测效果好)改进项目:交通标志牌目标检测数据集(12类别) 包含代码、数据集、训练好的权重参数,经测试,代码可以直接使用。 因为vgg代码,8倍下采样丰富,适合检测小目标 【yolov5】项目总大小:255MB 本项目更换了yolov5骨干网络为官方实现的VGG16网络,这里仅仅训练了100个epoch,网络还没收敛,加大轮次可以获取更高的网络性能 【如何训练】和yolov5一样的训练方法,摆放好datasets数据,然后更改yaml文件中的类别信息即可训练 更多yolov5改进介绍、或者如何训练,请参考: https://blog.youkuaiyun.com/qq_44886601/category_12605353.html

2025-12-24

7000多张交通标志检测数据&深度学习&自动驾驶检测

交通标志检测、图像目标检测数据【已标注,约7000张数据和标签,YOLO 标注格式】 类别个数【12】红绿灯等【具体参考classes文件】 数据集做了7:3训练集、验证集划分。 yolov5的改进实战:https://blog.youkuaiyun.com/qq_44886601/category_12605353.html 【更多图像分类、图像分割(医学)、目标检测(yolo)的项目以及相应网络的改进,可以参考本人主页:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html】

2025-12-24

软件工程基于管理系统实战项目的全栈开发资源包:涵盖设计文档、核心代码与部署方案的综合应用

内容概要:本文介绍了“管理系统实战项目 VIP 资源包”的详细内容,涵盖系统设计、核心功能实现、项目演示与部署三大模块。资源包包括可编辑的需求文档、架构设计、数据库设计、接口文档、UI原型图,以及基于主流技术栈(如Spring Boot、Vue 3等)的完整前后端代码,支持权限管理、审批流、数据看板等典型功能,并提供多平台部署方案与演示视频,适用于从学习到上线的全流程。; 适合人群:软件开发者、项目经理、系统架构师、计算机专业学生及自学者;尤其适合需要完成毕业设计、项目实战提升或企业级系统参考的技术人

2025-12-24

智能硬件基于云边端协同的智能音箱系统架构设计:物联网语音交互产品的多层级技术实现与演进趋势分析

内容概要:本文以智能音箱为例,系统分析了典型智能产品的“端-边-云”协同架构,涵盖从硬件层、嵌入式软件层到云端服务层的完整技术体系。详细阐述了各层级的核心组件与功能,如麦克风阵列、音频处理算法、SoC、AI能力引擎、技能平台等,并通过“唤醒—识别—理解—响应”的端到端流程示例,展示了多模块协作机制。同时探讨了隐私安全、网络依赖、边缘AI等关键技术挑战与未来发展趋势,体现了智能硬件在物联网与人工智能融合背景下的系统设计逻辑。; 适合人群:从事智能硬件、物联网、AI产品开发与系统架构设计的技术人员,以及具备一定工程背景的产品经理和技术爱好者;尤其适合工作1-3年希望深入理解AIoT系统架构的从业者。; 使用场景及目标:①理解智能设备从感知到执行的全链路工作原理;②掌握云边端协同架构的设计思路与关键技术选型依据;③为智能产品开发、系统优化或技术方案设计提供参考范式。; 阅读建议:建议结合实际智能硬件项目进行对照学习,重点关注各层之间的接口设计与数据流转逻辑,并关注边缘计算与隐私保护的平衡策略,以全面掌握现代智能产品系统架构的核心理念。

2025-12-23

Unet改进+SAM+point语义分割+医学图像分割+皮肤病疾病分割+pytorch

基于Unet融合SAM模型point提示推理遥感图像分割项目:皮肤病疾病分割 代码将SAM的point提示和Unet融合改进,评估指标采用dice、iou,recall、precision等,以及相应的曲线。 推理的脚本是【infer.py】,运行会生成UI界面,鼠标点击可以选择提示的前景/背景。代码会自动推理,显示掩膜图像 更多unet改进参考https://blog.youkuaiyun.com/qq_44886601/category_12858320.html【持续更新】 创新点介绍:实现了一个基于UNet的交互式图像分割系统,其核心亮点在于:1)创新性地将用户交互点作为第四通道与RGB图像拼接输入网络,实现点引导的精准分割;2)采用完整的训练-评估-应用闭环,支持余弦退火学习率调度和全面的分割指标评估(mIoU/Dice等);3)设计了友好的GUI界面,用户只需点击前景/背景点即可实时获得可视化结果;4) 系统具有高度可扩展性,UNet架构支持自定义通道数和特征图尺寸,数据加载器内置多种增强策略,既能保证训练效果又能适应不同尺寸的输入图像。

2025-12-23

皮肤病灶+语义分割数据集+5000张数据和标签+深度学习

皮肤病灶图像语义分割、语义分割数据集(约5000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255皮肤病 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,3600张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1500张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-23

智能物流基于机器学习与强化学习的需求预测与动态优化:AI驱动的端到端智慧供应链系统设计

内容概要:本文系统阐述了人工智能在智能物流领域的深度应用,涵盖机器学习、强化学习、计算机视觉与物联网等技术在需求预测、路径优化、库存管理、仓储作业和在途监控等方面的实践。通过构建端到端智能物流平台架构,整合数据中台与AI模型层,实现从“经验驱动”向“数据智能”的转变,并结合菜鸟网络、DHL、美团等典型案例展示AI带来的显著效益,包括成本降低、效率提升和客户满意度提高。同时提出四阶段实施路径与关键技术成功因素,展望数字孪生、量子计算、绿色物流等未来趋势。; 适合人群:物流行业从业者、AI技术人员、供应链管理者及企业数字化转型决策者;具备一定数据分析或工程技术背景的专业人士。; 使用场景及目标:①指导企业开展智能物流系统建设与AI技术落地;②为物流优化提供多目标动态决策方案;③推动供应链全流程智能化升级;④支持绿色低碳物流发展。; 阅读建议:建议结合文中架构图与代码示例深入理解技术实现逻辑,重点关注数据流与决策闭环设计,同时参考实施路线图分阶段推进项目落地,注重业务价值量化与组织协同。

2025-12-23

游戏开发基于Pygame的贪吃蛇游戏实现:Python编程教学与交互逻辑设计案例分析

内容概要:本文提供了一个基于Python语言和Pygame库实现的“贪吃蛇”游戏完整源代码,详细展示了游戏的核心逻辑与实现方式。内容涵盖游戏初始化、蛇的移动与生长机制、食物随机生成、碰撞检测、得分计算、网格绘制以及游戏状态控制(如暂停、重启、结束)等功能。代码结构清晰,包含Snake和Food两个主要类,通过事件监听处理用户输入,并利用Pygame进行图形化渲染,实现了流畅的游戏交互体验。; 适合人群:具备Python基础编程能力,对Pygame或小游戏开发感兴趣的初学者及中级开发者;尤其适合希望理解游戏循环、坐标系统、类设计与事件驱动编程的学习者。; 使用场景及目标:①学习如何使用Pygame开发2D小游戏;②掌握游戏开发中的基本概念如帧率控制、碰撞检测、状态管理;③通过修改代码实现自定义功能(如加速、皮肤变化、难度提升)来加深理解。; 阅读建议:建议读者逐行阅读并运行代码,结合注释理解各模块作用,尝试调试蛇的移动逻辑或扩展新特性(如音效、关卡),以达到深入学习的目的。

2025-12-23

数据库性能优化:SQL查询与索引策略综合指南

内容概要:本文系统讲解了SQL优化的核心原则、索引策略及查询优化的实战案例。重点涵盖减少数据访问量、优化执行计划、合理创建索引(包括B-Tree、哈希、复合索引等),并深入解析复合索引的最左前缀原则。通过EXPLAIN分析执行计划中的type、key、rows、Extra等关键字段,判断查询性能。结合多个真实案例对比优化前后效果,如避免SELECT *、优化JOIN、改进分页查询、替换IN为EXISTS或JOIN等。同时列举索引失效常见场景及解决方案,并提供索引维护建议与性能监控工具使用方法。最后总结优化流程与最佳实践,强调循序渐进、测试验证和持续监控的重要性。; 适合人群:具备一定数据库使用经验,从事后端开发或DBA相关工作的技术人员,工作年限1-3年及以上; 使用场景及目标:①提升SQL查询性能,降低系统资源消耗;②掌握EXPLAIN执行计划分析能力;③合理设计索引结构,避免索引失效;④解决慢查询、深分页、多表关联等典型性能问题; 阅读建议:建议结合实际数据库环境动手实践文中案例,重点关注执行计划变化,逐步应用优化策略,并利用慢查询日志和监控工具持续跟踪效果。

2025-12-23

网球运动员动作识别+深度学习+人工智能

计算机视觉数据:网球运动员动作识别、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数1400,val数据总数600。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别4: { "0": "backhand", "1": "forehand", "2": "ready_position", "3": "serve" }

2025-12-23

网球运动员动作数据集用于人体姿势估计+目标检测+json标签

网球运动员动作数据集用于人体姿势估计+目标检测+json标签 backhand shot (backhand) 反手击球(反手) forehand shot (forehand) 正手击球(正手) ready position (ready_position) 准备姿势(ready_position) serve (serve) 发球(发球)

2025-12-23

停车场是否有车位检测+深度学习数据集+图像分类

计算机视觉数据:停车场空置和占用空间检测、图像分类【包括划分好的数据、类别字典文件、python数据可视化脚本】 【数据集详情】data目录下分为2个目录,train为训练集、val为验证集,存放各自的同一类数据图片。train数据总数4800,val数据总数900。可以用作yolov5的分类数据集。为了方便查看数据,提供了可视化py文件,随机传入4张图片即可展示,并且保存在当前目录。 关于神经网络改进:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 类别2: { "0": "busy", "1": "free" }

2025-12-23

DenseNet项目+迁移学习+人工智能+运动员动作图像识别+深度学习

DenseNet121,161,169,201等模型实现的迁移学习、自适应图像识别项目实战:运动员动作图像分类 【项目简介】 代码主干网络采用DenseNet家族系列,包括densenet121,161,169,201模型。训练的时候是否需要载入官方在imageNet数据集上的预训练权重或者仅仅训练分类输出层,只需要更改pretrained和freeze_layers参数即可。为了做对比消融试验,优化器采用了Adam和SGD两种,如果需要增加其他的,可以自行在if语句中添加。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。 【如果想要更换数据集训练,参考readme文件】 【本项目为运动员动作图像分类(约5k张数据),包含数据集和标签,可以一键运行】

2025-12-23

基于SwinTransformer+MLCA注意力机制改进的完整项目实战【包含项目说明书】+ 代码 + 停车场检测

基于SwinTransformer+MLCA注意力机制改进的完整项目实战【包含项目说明书】+ 代码 + 停车场检测 本项目是一个基于PyTorch框架的深度学习图像分类系统,采用卷积神经网络(CNN)实现完整的训练与评估流程。系统核心功能包括数据预处理、模型训练、性能评估和可视化分析,适用于多样化的图像分类任务。项目文件结构清晰,主要由train.py(主训练脚本)、data_utils.py(数据处理模块)和train_utils.py(训练评估工具)组成,支持命令行参数配置如数据路径、批次大小和学习率等。 数据预处理阶段通过ImageDataset类实现标准化操作:训练集采用随机裁剪、水平翻转和颜色增强等动态增强策略,验证集仅进行基础调整和归一化,均统一至224×224分辨率。训练流程支持GPU加速,自动记录损失值、准确率、精确率、召回率、特异度和F1分数六类指标,并在每轮训练后生成验证集评估报告。系统会动态保存最佳模型权重(.pth文件)至checkpoints目录,同时输出训练曲线图(含6项指标对比)和详细日志文件,便于监控过拟合/欠拟合现象。 用户可通过模块化设计灵活扩展功能:修改CNNModel类调整网络结构,自定义get_data_transforms()的数据增强策略,或增减calculate_metrics()的评估指标。项目要求数据集按类别分目录存放,依赖PyTorch、NumPy等基础库,建议合理设置batch_size以避免内存溢出。该系统整合了从数据加载到模型部署的全流程工具,兼具标准化流程与高度可定制性,为图像分类任务提供高效解决方案。

2025-12-23

SwinTransformer+Unet+SAM+卫星建筑屋顶图像语义分割+创新改进+深度学习

基于SwinUnet融合SAM point创新改进完整语义分割项目:卫星建筑屋顶图像语义分割(包含完整数据集和代码) 核心创新在于将**点提示学习机制与Swin UNet相结合**,实现了**用户引导的智能分割范式**。该系统在架构设计、训练策略和交互方式上均实现了重大突破,具体体现在以下几个层面: **首先,在模型架构上进行了根本性创新。** 系统摒弃了传统的卷积神经网络,采用基于Swin Transformer的U型编解码器作为主干网络。Swin Transformer通过引入**移位窗口自注意力机制**,在保持全局建模能力的同时大幅降低了计算复杂度,能够有效捕获多尺度语义信息。更为关键的是,模型创新地将**点提示作为第四输入通道**,将用户交互信息以空间热图的形式与原始RGB图像拼接,形成4通道输入。这种设计使得网络能够同时处理视觉特征和用户意图,实现了端到端的交互式学习。 **其次,在训练策略上实现了智能化革新。** 数据集加载器(`dataset.py`)采用**动态点采样机制**,在每轮训练中随机从真实掩码的前景区域采样点作为正样本提示,当缺乏前景时则采样背景点作为负样本提示。这种**课程学习策略**使模型能够学习如何响应各种点提示情况,极大增强了模型的鲁棒性和泛化能力。训练过程还结合了余弦退火学习率调度和AdamW优化器,确保模型稳定收敛到最优解。 **第三,在交互体验上实现了革命性突破。** 推理界面(`infer.py`)基于Tkinter构建了直观的图形化交互系统,用户可通过**左键点击指定前景、右键点击指定背景**的方式提供点提示。系统实时响应用户输入,将点坐标映射为空间热图后与原始图像共同输入训练好的模型,生成精确的分割结果。这种交互方式极大地降低了专业分割的门槛,使得非专业用户也能通过简单点击获得高质量分割效果。

2025-12-18

遥感建筑语义分割+6000张数据和标签+遥感影像+图像检测+语义分割+深度学习

遥感建筑语义分割、语义分割数据集(约6000张数据和标签,已处理完可以直接训练,多类别图像分割) 【标签信息,0 背景 255建筑 查看classes文件】 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,4200张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,1800张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 AI改进网络介绍:https://blog.youkuaiyun.com/qq_44886601/category_12858320.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.youkuaiyun.com/qq_44886601/category_12803200.html

2025-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除