
数据挖掘
blexsantos
这个作者很懒,什么都没留下…
展开
-
DATAWHALE打卡Task5-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛主要内容:stacking和blending的差异参考:相关学习资料主要内容:模型融合一般用于A榜比赛的尾声和B榜比赛的全程主要包括以下基础方法:平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。boosting/原创 2020-09-27 20:08:04 · 325 阅读 · 0 评论 -
DATAWHALE打卡Task4-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡4-零基础入门金融风控之贷款违约预测挑战赛主要内容基本模型的优劣比较1、逻辑回归模型2、决策树模型集成模型思想模型调参1、贪心调参2、 网格搜索3、 贝叶斯调参 (pip install bayesian-optimization)参考:相关学习资料主要内容基本模型的优劣比较1、逻辑回归模型优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;原创 2020-09-24 20:19:31 · 276 阅读 · 0 评论 -
DATAWHALE打卡Task3-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡3-零基础入门金融风控之贷款违约预测挑战赛主要内容数据预处理异常检测数据分桶特征选择常见的基本处操作参考:相关学习资料主要内容数据预处理缺失填充:1 把所有缺失值替换为指定的值0data_train = data_train.fillna(0)2 向用缺失值上面的值替换缺失值data_train = data_train.fillna(axis=0,method=‘ffill’)3 纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值data_tra原创 2020-09-21 23:19:20 · 230 阅读 · 0 评论 -
DATAWHALE打卡Task2-零基础入门金融风控之贷款违约预测挑战赛(EDA)
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛1 数据总体了解1.1 读取数据1.2 查看数据集的样本个数和原始特征维度2 查看数据集中特征缺失值,唯一值等3 深入数据-查看数据类型3.1 数值类型和类别类型3.2 数值类型详细分析3.2.1 划分数值型变量中的连续变量和离散型变量3.2.2 数值类别型变量分析3.2.3 数值连续型变量分析3.2.4 非数值类别型变量分析4 数据间相关关系4.1 单一变量分布可视化4.2 根据y值不同可视化x某个特征的分布4.3 时间格式数据处理及原创 2020-09-18 23:15:50 · 397 阅读 · 0 评论 -
DATAWHALE打卡Task1-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛主要内容数据概况评价指标解答思路评分卡相关参考:task1相关学习资料主要内容数据概况数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。train.csvid 为贷款清单分配的唯一信用证标识l原创 2020-09-15 20:38:14 · 333 阅读 · 0 评论 -
Datawhale 数据挖掘入门:模型融合 笔记
TASK5:模型融合摘自 ML67 在Datawhale 数据挖掘入门:模型融合部分的讲义1、主要内容简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利用...原创 2020-04-04 14:18:40 · 252 阅读 · 0 评论 -
Datawhale 数据挖掘入门:建模调参 笔记(3)
TASK4:建模调参摘自 小雨姑娘 在Datawhale 数据挖掘入门:建模调参部分的讲义1 线性回归假设已经有了数据train_X,和trian_y模型的建立from sklearn.linear_model import LinearRegressionmodel = LinearRegression(normalize=True)model = model.fit(train_...原创 2020-04-01 18:52:26 · 329 阅读 · 0 评论 -
Datawhale 数据挖掘入门:特征工程 笔记(2)
TASK3:特征工程摘自 Datawhale 数据挖掘入门:特征工程部分的讲义1 特征工程目标对于特征进行进一步分析,并对于数据进行处理2 内容介绍常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对...原创 2020-03-28 21:28:31 · 500 阅读 · 1 评论 -
Datawhale 数据挖掘入门:数据分析 笔记
TASK2:数据分析摘自 AI蜗牛车 在Datawhale 数据挖掘入门:数据分析部分的讲义赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX1 主要的内容载入各种数据...原创 2020-03-22 14:32:11 · 1215 阅读 · 0 评论