1.数据分析是结构化数据建模前的重要部分,但是这一部分之前很少做,一直是暴力学习,把所有的特征全部扔到模型当中。
2.df.info()查看基本数据类型,df.describe()查看数据的基本描述。数据的缺失也是一个重要的信息,df.isnull.any(),显示某一列是否存在缺失值,df.isnull.sum(),显示每列缺失的个数。数据可视化查看数据缺失的情况,如果确实不严重对于catboost,lgb模型无需处理。确实过多考虑直接删除。
3.对于数据的类型大体可分为(结构化数据)object和数值类型,对于数值类型分箱往往能取到不错效果尤其是对分布差别较大的数据,能够消除部分噪音,提升模型的稳定性,数据挖掘比赛中常见赛题数据已被分箱。对于类别数据另一个要注意的是类别之间的差异,是无差的还是具有大小优劣关系。存在大家关系的数据可以考虑编码为有序编码。
4.对于数值型数据值得一提的是数据的分布需要考虑,这一点在鱼佬的第一次直播中有所涉及,暂时还没看后面补上。
5.以上都是从值上分析,适当的使用可视化将有利于深入理解,这一点比如数据透视表的使用。