原始数据集详情
简介:GID 是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。它包含150张高分辨率高分二号卫星图像的50多亿个标记像素,在一个涵盖人工建造、农业和自然类别的24类系统中进行了标注。
GID数据集具有以下优点:
(1)土地覆盖信息分布广泛。GID包含150景高质量高分辨率的Gaofen-2卫星遥感图像,这些图像是从中国60多个不同的城市拍摄获取,每幅图像都没有云雾遮挡且清晰高质。整体图像的覆盖范围超过50000平方公里的地理区域。
(2)贴近真实的地物分布特性。GID包括相同区域不同季节、不同光照条件下的大量样本。GID数据集在光谱、纹理、结构上具有极为丰富的多样性,十分贴近真实的地物分布特性。
Key | Value |
---|---|
卫星类型 | 高分2 |
覆盖区域 | 覆盖范围超过50000平方公里 |
场景 | 中国60多个不同的城市 |
分辨率 | 0.8m |
数量 | 超精细土地覆盖集(GID-24)150张 |
单张尺寸 | 7200*6800 |
原始影像位深 | 8位 |
标签图片位深 | 8位 |
原始影像通道数 | 三通道 |
标签图片通道数 | 三通道 |
标签类别对照表
24类别表:
像素值 | 类别名(英文) | 类别名(中文) | RGB |
---|---|---|---|
1 | industrial land | 工业用地 | 200, 0, 0 |
2 | paddy field | 水田 | 0, 200, 0 |
3 | irrigated field | 灌溉田地 | 150, 250, 0 |
4 | dry cropland | 干旱农田 | 0, 63, 127 |
5 | garden land | 花园土地 | 0, 63, 191 |
6 | arbor forest | 乔木林 | 0, 63, 255 |
7 | shrub forest | 灌木林 | 0, 127, 63 |
8 | park | 停车 | 0, 127, 127 |
9 | natural meadow | 天然草地 | 0, 0, 127 |
10 | artificial meadow | 人工草地 | 0, 0, 191 |
11 | river | 河 | 0, 0, 255 |
12 | urban residential | 城市居民地 | 0, 191, 127 |
13 | lake | 湖 | 0, 127, 191 |
14 | pond | 池塘 | 0, 127, 255 |
15 | fish pond | 鱼塘 | 0, 100, 155 |
16 | snow | 雪 | 250, 250, 250 |
17 | bareland | 裸地 | 200, 200, 200 |
18 | rural residential | 农村居民地 | 200, 150, 150 |
19 | stadium | 体育场 | 250, 200, 150 |
20 | square | 广场 | 150, 150, 0 |
21 | road | 路 | 250, 150, 150 |
22 | overpass | 立交桥 | 250, 150, 0 |
23 | railway station | 火车站 | 250, 200, 250 |
24 | airport | 机场 | 200, 150, 0 |
0 | unlabeled | 未标记区域 | 0, 0, 0 |
数据预处理
下面对150张原始影像及标签进行模型训练前的数据预处理,首先根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸,比如512x512,另外如果需要检查裁剪后的数据是否一一对应,最好给标签数据添加颜色表,这样就可以轻易看出影像和真值标签是否一致。
下面就是使用代码对原始影像及原始标签进行批量裁剪为512x512大小,并给真值标签添加颜色表,效果图如下所示:
最后可以直接用于训练的数据集结构如下所示:
/path/to/data
├── train
│ ├── images
│ │ ├── 2522_0_0.tif
│ │ ├── 2522_0_512.tif
│ │ └── ......
│ └── labels
│ ├── 2522_0_0.tif
│ ├── 2522_0_512.tif
│ └── ......
└── val
├── images
│ ├── 2522_512_512.tif
│ ├── 2523_0_0.tif
│ └── ......
└── labels
├── 2522_512_512.tif
├── 2523_0_0.tif
└── ......
获取相关数据集或咨询交流见 博主首页 个人简介
1、官网原始数据集;
2、中间处理好的大图数据集;
3、裁剪后可直接训练的小图数据集;