记一次失败的竞赛经历
数据分析
1.样本不均衡。在20万训练数据集中,正样本(y=1)为2万,负样本(y=0)为18万。
2.所有原始特征之间相关性很小。这一点很奇怪,很少有数据集所有特征之间相关性都很小的。
3.所有特征的分布都类似。这一点也是挺奇怪,应该是主办方对数据做了某种变换。
特征工程
1.由于这个赛题所有特征均为匿名特征且特征之间没有什么关联,所以可以考虑对数据进行重新洗牌(shuffle)。对于训练数据,分别在标签为0和标签为1的样本中进行重新洗牌。即对于每个特征都进行shuffle操作,这样得到完全不同的样本,分别用这些不同的样本去训练,然后做预测,最后取平均得到最后的结果。
2.value_count特征。去除test中的合成数据后求各个特征中唯一值的个数。
3.排序特征。对数值特征进行排序。
4.相似比率特征之间的统计特征。这里的比率为对某个特定值,求target为1的概率。然后对所有特征做相似性分析,把相似性高的特征划为一组。如下:
然后对每组相似特征求统计特征。
TOP选手方案:
特征部分