【Bubbliiiing视频记录】Pytorch 搭建自己的Unet语义分割平台

该文介绍了语义分割的概念,通过UNet网络结构进行图像像素级分类,其中使用VGG16作为BackBone。文章详细讲解了UNet的组成,包括特征提取、FPN的构建和预测过程,并提到了数据集的制作方法,如使用labelme工具进行标注。此外,还讨论了训练参数,如focalloss用于处理样本不平衡问题,以及miou作为评估指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源

b站 地址

什么是语义分割

语义分割:对图像每个像素点进行分类
在这里插入图片描述常见神经网络处理过程:Encoder提取特征,接着Docoder恢复成原图大小的图片
在这里插入图片描述

UNet整体结构

分为三个部分

  1. 主干特征提取部分:
    • 卷积和最大池化的堆叠
    • 获得五个初步有效特征层
  2. 加强特征提取部分:
    • 五个初步有效特征层进行上采样 + 特征融合
    • 获得一个最终融合了所有特征的有效特征层
  3. 预测部分
    最后一个有效特征层对每一个特征点进行分类

在这里插入图片描述

BackBone-主干特征提取网络

bubbliiing使用的是VGG16作为主干特征提取网络。
UNet具体使用VGG16红色框线内的内容
在这里插入图片描述具体实现代码:

  • 卷积核都是1 × 1的,所以不改变高和宽,卷积核个数改变深度
  • M:最大池化,长和宽 / 2
    在这里插入图片描述

加强特征提取网络-FPN的构建

这块的步骤:堆叠->卷积->堆叠->卷积
在这里插入图片描述代码部分,主要unetUp来实现
一小步的实现如下两图:
在这里插入图片描述
在这里插入图片描述所有,最后输出的是512, 512, 64的特征层
在这里插入图片描述

利用特征获得最终的预测结果

利用1 × 1卷积,指定输出类别数目,即可
在这里插入图片描述

预测过程详解

unet的预测效果如下:
在这里插入图片描述代码过程如下所示:
在这里插入图片描述

数据集格式

  • JPEGImages:原图
  • SegmentationClass:标签(灰度图,飞机是1,人是15)
  • Segmentation
    • train.txt:训练集图片名字
    • val.txt:验证集图片名字
      在这里插入图片描述在这里插入图片描述

在这里插入图片描述

数据集的制作

使用一个软件labelme,版本3.16.7

pip install labelme==3.16.7 # 安装
labelme # 运行

在界面中通过一个闭环人工标注(真肝呀,yyds)
在这里插入图片描述
会生成对应的json文件
在这里插入图片描述利用json_to_dataset文件,输入自己的类别,得到分割结果
在这里插入图片描述得到分割结果
在这里插入图片描述

训练参数解析

num_class = 实际类别+1(背景)
在这里插入图片描述
冻不冻结?在这里插入图片描述

使用focal loss可以防止样本不平衡
在这里插入图片描述
核心是给不同的权重
在这里插入图片描述

训练自己的数据集

之前做好的数据集,用voc_annotation进行划分

在这里插入图片描述

miou 评价指标计算

在这里插入图片描述
在这里插入图片描述

看完了,完结撒花,不过想做分割的话,接下来看看sam,unet接下来可以看看变种了!

### Faster R-CNN目标检测算法概述 Faster R-CNN是一种两阶段的目标检测框架,其核心在于通过区域提议网络(Region Proposal Network, RPN)自动生成候选框,从而替代传统的Selective Search方法。RPN与Fast R-CNN共享全图卷积特征,使得整个模型可以端到端训练[^1]。 对于`bubbliiiiing`这一关键词,在IT领域特别是机器学习社区中通常指的是由该作者维护的一系列计算机视觉项目库。这些资源涵盖了多种经典神经网络架构的实现及其变体版本,其中包括但不限于YOLOv3、SSD以及本话题所涉及的Faster R-CNN等对象识别工具包。这类开源项目的贡献极大地促进了相关技术的发展和普及。 关于Bubbling FRCNN的具体实现: ```python import torch from torchvision import models # 加载预训练的Faster R-CNN模型 model = models.detection.fasterrcnn_resnet50_fpn(pretrained=True) # 设置为评估模式 model.eval() def detect_objects(image_tensor): """ 使用预训练好的Faster R-CNN模型进行物体检测 参数: image_tensor (Tensor): 输入图像张量 返回: dict: 包含预测边界框和其他信息的结果字典 """ with torch.no_grad(): prediction = model([image_tensor]) return prediction ``` 上述代码展示了如何利用PyTorch加载并运行一个预先训练过的Faster R-CNN模型来进行基本的对象检测任务。此过程包括定义函数`detect_objects()`用于接收输入图片数据,并返回经过推理后的输出结果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

书文的学习记录本

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值