1.过采样和欠采样

上图中,蓝色的类别比橘黄色的类别的样本多得多。这种情况下,我们在预处理时,有两种选择。
欠采样 意思是从多数的类别中只采样其中的一部分的样本,选择和少数类别同样多的样本。这种采样保持了该类别原来的数据分布。这很容易,我们只需要少用点样本就可以让数据变得均衡。
过采样 的意思是我们复制少数类别中的样本,使得数量和多数样本一样多。复制操作需要保持少数样本的原有的数据分布。我们不需要获取更多的数据就可以让数据集变得均衡。采样的方法是一个很好的类别均衡的方法。
注:一定要保持采样后的数据分布和原有数据分布类似。
data argumentation:
基本数据增强主要包含如下方式:
1.旋转: 可通过在原图上先放大图像,然后剪切图像得到。
2.平移:先放大图像,然后水平或垂直偏移位置剪切
3.缩放:缩放图像
4.随机遮挡:对图像进行小区域遮挡
5.水平翻转:以过图像中心的竖直轴为对称轴,将左、右两边像素交换
6.颜色色差(饱和度、亮度、对比度、 锐度等)
7.噪声扰动: 对图像的每个像素RGB进行随机扰动, 常用的噪声模式是椒盐噪声和高斯噪声;
2.权值均衡(损失敏感函数)
权值均衡是在训练样本的时候,在计算loss的时候,通过权值来均衡数据的分布。正常情况下,每个类别在损失函数中的权值是1.0。但是有时候,当某些类别特别重要的时候,我们需要给该类别的训练样本更大权值。
可以直接给对应的类别的样本的loss乘上一个因子来设定权值
计算classes_weights的参考代码
import os
from tqdm import tqdm
import numpy as np
from mypath import P

本文探讨了在图像分割中面对不均衡数据集的处理方法,包括过采样和欠采样技术,以及如何通过数据增强来改善样本分布。此外,还介绍了权值均衡的概念,即在计算损失函数时调整不同类别的权重,以确保重要类别的充分学习。
最低0.47元/天 解锁文章
3321





