Python_for_microscopists项目：土地覆盖数据集预处理与分割教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00403/article/details/148548648

Python_for_microscopists项目：土地覆盖数据集预处理与分割教程

python_for_microscopists 项目地址: https://gitcode.com/gh_mirrors/py/python_for_microscopists

概述

本教程将详细介绍如何使用Python处理土地覆盖数据集，为后续的语义分割任务做准备。土地覆盖数据集通常包含高分辨率卫星或航拍图像及其对应的标注掩码，这些数据在环境监测、城市规划等领域有重要应用。

数据集理解

土地覆盖数据集通常包含两种类型的文件：

图像文件（.tif格式）：通常是三通道的RGB图像
掩码文件（.tif格式）：单通道图像，每个像素值代表不同的土地覆盖类别

通过初步分析可以看到：

图像文件的三个通道分别代表不同的光谱波段
掩码文件的三个通道实际上是相同的，可以只使用其中一个通道

数据预处理流程

1. 图像分块处理

高分辨率图像通常尺寸很大，直接输入神经网络会带来内存问题。解决方案是将大图像分割成小块：

patch_size = 256

# 计算能被256整除的最近尺寸
SIZE_X = (image.shape[1]//patch_size)*patch_size
SIZE_Y = (image.shape[0]//patch_size)*patch_size

# 裁剪图像
image = Image.fromarray(image)
image = image.crop((0, 0, SIZE_X, SIZE_Y))

使用patchify库将图像分割为256x256的小块：

patches_img = patchify(image, (256, 256, 3), step=256)

2. 掩码同步处理

对掩码进行相同的分块处理，确保图像和掩码一一对应：

patches_mask = patchify(mask, (256, 256), step=256)

3. 有效数据筛选

许多小块可能只包含背景（标签0），这些数据对训练没有帮助。我们筛选出包含足够多有效标签的样本：

val, counts = np.unique(temp_mask, return_counts=True)

# 至少5%的区域是有用标签
if (1 - (counts[0]/counts.sum())) > 0.05:
    # 保存有效样本

4. 数据集划分

将筛选后的数据划分为训练集和验证集：

splitfolders.ratio(input_folder, output=output_folder, seed=42, ratio=(.75, .25))

数据组织建议

为了便于使用Keras的ImageDataGenerator，建议按以下结构组织数据：

Data/
    train_images/
                train/
                    img1, img2, img3, ......
    
    train_masks/
                train/
                    msk1, msk, msk3, ......
                    
    val_images/
                val/
                    img1, img2, img3, ......                

    val_masks/
                val/
                    msk1, msk, msk3, ......