【Challenge笔记】Understanding Clouds from Satellite Images
摘要
准备把自己的笔记更加系列化,将【Challenge笔记】系列作为自己的第一个系列。这个系列主要记录自己在Kaggle、天池上的学习笔记。在自己看的过程也能够学到一些并整理成一些成型的工具。同时可能会附上自己的Codes,一方面能学到理论相关的知识,另一方面也是能够提高自己的Coding能力。
比赛信息
Challenge地址:https://www.kaggle.com/c/understanding_cloud_organization/overview
思路
思路一
关于数据输入的问题。对数据的分辨率进行分析,发现图像的大小为1400x2100。考虑到这相对来讲不是一个常见的输入格式,但是如果直接对原始数据进行resize的话,会造成信息的大量丢失,因此这里的作者想到一个折衷的方案——利用一个小的特征提取网络,提取出重要特征并减小图像的大小。
思路二
为了可以可以构建更好的整体,因此采用所有的model中采用相关性就近的model。因此所有的model都采用unet的结构。
这里得到一个重要的信息是如果要对模型进行融合需要考虑模型之间的相关性,如果模型之间的
相关性差距很大则会导致模型的不稳定等问题
同时对于数据增强方面使用albumentation库进行增强:
Hflip, VFlip, Equalize, CLAHE, RandomBrightnessContrast, RandomGamma, CutoutShiftScaleRotate, GridDistortion, GaussNoise
思路三
后处理
因为在分割任务中Dice对于假阳性的影响很大。在一些情况下,单独训练模型用来检测mask也会有很大的帮助。但是可能在一些情况下没有很大的帮助,采用Triple rule method(通过全局优化方法搜索三重规则参数(阈值1,最小大小,阈值2))
有时候选择一个好的后处理的方法也能给实验带来很好的效果