
python数据分析
文章平均质量分 50
choven_meng
这个作者很懒,什么都没留下…
展开
-
变量分析图
def catPlot(df,feature,target, figsize=(14, 6), ylim=False, save=False, filename=None): feature_name = feature.capitalize() df_temp = df.copy() df_temp[feature] = df_temp[feature]#.fillna(-1) tmp = pd.crosstab(df_temp[feature], df_temp[t...原创 2021-07-09 15:35:37 · 401 阅读 · 0 评论 -
样本数据集不平衡处理方式
原始数据中经常存在正负样本不均衡,比如正负样本的数据比例为100:1.常用的解决办法有:1、数据上处理2、权重设置3、集成的思想4、转化成异常检测问题5、利用深度学习:自编码器.6、确定适合样本不平衡问题的评价指标1、数据上处理1.1、数据源: 搜集更多的数据来使数据达到平衡,但是一般出现样本不平衡问题,就是不太可能以一种简单的方法获取到更多的样本(在金融领域,可以思考坏用户的定义是否过于严格)1.2、数据增广: 目前数据增广主要应用于图像领域,...原创 2020-10-14 15:44:54 · 4781 阅读 · 0 评论 -
数据预处理
1、数据预处理2、特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。...原创 2020-10-14 15:33:18 · 8637 阅读 · 0 评论