深度学习图像语义分割数据集的使用范围对比(关注几何形状)

目录

前言

一、各类数据集简介

总结


前言

       推进深度学习向前发展的三驾马车分别为:1. 数据集;2. 计算机的算力;3. 深度学习算法。然而,随着人工智能和深度学习算法在各个领域的应用取得显著的成效,对优质的数据集的要求越来越高,但现在主流的数据集仍然是关于纯计算机领域的应用,所以,选择好的数据集进行跨领域的迁移学习尝试也是计算机视觉(CV)领域常用的可行性方法。由于工程领域没有大范围公开的可用数据集,无法进行大面积的自主应用。

一、各类数据集简介

数据集种类来源(Openmmlab开源算法库):https://github.com/open-mmlab/mmsegmentation

1. Cityscapes数据集

       Cityscapes即城市景观数据集,是现在语义分割领域常用的大规模数据集,其中包含一组不同的立体视频序列,记录在50个不同城市的街道场景。
       城市景观数据集中针对城市街道场景的语义理解,该大型数据集包含来自50个不同城市的街道场景,还包含不同季节,背景以及同一天不同时间段的街景样式,除了20000个弱注释帧以外,还包含5000帧高质量像素级注释。因此,数据集的数量级要比以前的数据集大的多。Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像。
  Cityspaces官方网站:https://www.cityscapes-dataset.com/

2. PASCAL VOC数据集

     PASCAL VOC(全称:The Pattern Analysis, Statical Modeling and Computational Learning Visual Object Classes)是一项由欧盟资助的世界级别计算机视觉挑战赛事,开始于2005年,现在已经停止举办,但是研究人员仍然可以在其服务器上提交预测结果来评估自己的模型性能。PASCAL VOC从举办开始,每年的内容都有所不同,从最开始的分类,到后面逐渐增加检测,图像分割,人体布局,动作识别(Object Classification 、Object Detection、Object Segmentation、Human Layout、Action Classification) 等内容,数据集的容量以及种类也在不断增加和改善。该项挑战赛催生出一大批优秀的计算机视觉模型(尤其是以深度学习技术为主的)。所以,对于该数据集的图片类型就比较多样化可能包含日常用品物体,猫狗动物以及风景照片等等。

PASCAL VOC数据集的可下载镜像网站:https://pjreddie.com/projects/pascal-voc-dataset-mirror/

3. ADE20K数据集

      ADE20K数据集(全称:ADE20K Scene Parsing Challenge)是一个用于场景解析并覆盖了从室内到室外、自然到城市等各种不同的场景的大规模数据集,它包含了超过20,000个标注图像,用于图像语义分割任务。每个图像都经过了详细的标注,将图像中的每个像素进行了语义分类,共包含了150个不同的语义类别,如人、车辆、植物、建筑物等。该数据集旨在推动计算机视觉领域的研究和发展,特别是在场景理解和图像分割方面。可为各种应用提供支持,例如智能驾驶,图像编辑,数据增强等方面。

ADE20K官网:

### 语义分割数据集增强的方法与工具 #### 方法概述 在语义分割任务中,通过数据增强可以有效提升模型的泛化能力并缓解过拟合问题。常见的数据增强技术包括但不限于旋转、翻转、缩放、裁剪、颜色变换等[^1]。这些方法不仅适用于输入图像,还需要同步应用于对应的掩膜(mask)以保持像素级的一致性。 #### 增强方法分类 以下是常用的语义分割数据增强方法: 1. **几何变换** 几何变换主要包括旋转、平移、缩放和裁剪等操作。这类方法能够改变图像的空间结构,从而模拟不同的视角或拍摄条件。例如,`Augmentor`库支持定义一系列几何变换规则,并自动对原图及其掩膜应用相同的变换[^3]。 2. **色彩调整** 色彩调整涉及亮度调节、对比度变化、饱和度修改以及随机噪声添加等内容。这种方法有助于提高模型对光照条件差异的鲁棒性。具体实现可通过Python中的OpenCV或PIL库完成[^4]。 3. **混合策略** 混合策略是一种高级的数据增强手段,它将两张或多张图片按照一定比例组合在一起形成新的样本。CutMix和MixUp是最典型的两种形式,它们既能保留原有特征又能引入新特性[^1]。 4. **空间变形** 利用弹性形变或其他复杂的空间映射函数来扭曲图像形状也是一种有效的增强方式。这种技术特别适合医学影像等领域,因为其能更好地反映实际成像过程中可能发生的畸变现象[^4]。 #### 推荐工具 针对上述提到的各种增强需求,市面上存在多种成熟的开源框架可供选择: - **Augmentor**: 如前所述,这是一个简单易用且功能强大的Python包,专门用于自动化批量生成经过各种预设处理后的图像副本连同相应的标注文件一起保存下来以便后续使用。 - **Albumentations**: 提供更加灵活丰富的API接口让用户自定义复杂的转换流程链路;同时兼容性强,可轻松集成到深度学习管道当中去[^4]。 - **imgaug**: 支持广泛的图像处理操作集合,允许开发者构建高度定制化的流水线来进行大规模生产级别的数据扩充作业[^4]。 #### 实现示例 下面给出一段利用 `Augmentor` 库进行基本数据增强的例子: ```python import Augmentor # 创建Pipeline对象指定源目录位置 p = Augmentor.Pipeline("/path/to/original/images") # 设置ground truth路径关联每张训练样例与其匹配的目标区域标记图层关系 p.ground_truth("/path/to/segmentation/masks") # 添加具体的增强操作项 p.rotate(probability=0.7, max_left_rotation=25, max_right_rotation=25) # 随机角度范围内的旋转变换 p.flip_left_right(probability=0.5) # 左右镜像反转概率设定为一半几率发生 p.zoom_random(probability=0.5, percentage_area=0.8) # 对选定区域内按给定百分比放大缩小效果 # 输出最终结果至目标输出夹点下 output_directory = "/desired/output/folder" number_of_samples_to_generate = 1000 # 设定总共要产生的额外数量规模 p.sample(number_of_samples_to_generate) ``` #### 总结 综上所述,采用适当的数据增强措施对于改善语义分割性能至关重要。无论是基础层面还是更精细控制方面都有相应成熟解决方案可以选择实施。合理选用合适的算法和技术平台将是成功开展此类研究工作的关键所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值