数据挖掘
blexsantos
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DATAWHALE打卡Task5-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛主要内容:stacking和blending的差异 参考:相关学习资料 主要内容: 模型融合一般用于A榜比赛的尾声和B榜比赛的全程 主要包括以下基础方法: 平均: 简单平均法 加权平均法 投票: 简单投票法 加权投票法 综合: 排序融合 log融合 stacking: 构建多层模型,并利用预测结果再拟合预测。 blending: 选取部分数据预测训练得到预测结果作为新特征,带入剩下的数据中预测。 boosting/原创 2020-09-27 20:08:04 · 371 阅读 · 0 评论 -
DATAWHALE打卡Task4-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡4-零基础入门金融风控之贷款违约预测挑战赛主要内容基本模型的优劣比较1、逻辑回归模型2、决策树模型集成模型思想模型调参1、贪心调参2、 网格搜索3、 贝叶斯调参 (pip install bayesian-optimization) 参考:相关学习资料 主要内容 基本模型的优劣比较 1、逻辑回归模型 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; 适合二分类问题,不需要缩放输入特征;原创 2020-09-24 20:19:31 · 338 阅读 · 0 评论 -
DATAWHALE打卡Task3-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡3-零基础入门金融风控之贷款违约预测挑战赛主要内容数据预处理异常检测数据分桶特征选择常见的基本处操作 参考:相关学习资料 主要内容 数据预处理 缺失填充: 1 把所有缺失值替换为指定的值0 data_train = data_train.fillna(0) 2 向用缺失值上面的值替换缺失值 data_train = data_train.fillna(axis=0,method=‘ffill’) 3 纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值 data_tra原创 2020-09-21 23:19:20 · 269 阅读 · 0 评论 -
DATAWHALE打卡Task2-零基础入门金融风控之贷款违约预测挑战赛(EDA)
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛1 数据总体了解1.1 读取数据1.2 查看数据集的样本个数和原始特征维度2 查看数据集中特征缺失值,唯一值等3 深入数据-查看数据类型3.1 数值类型和类别类型3.2 数值类型详细分析3.2.1 划分数值型变量中的连续变量和离散型变量3.2.2 数值类别型变量分析3.2.3 数值连续型变量分析3.2.4 非数值类别型变量分析4 数据间相关关系4.1 单一变量分布可视化4.2 根据y值不同可视化x某个特征的分布4.3 时间格式数据处理及原创 2020-09-18 23:15:50 · 447 阅读 · 0 评论 -
DATAWHALE打卡Task1-零基础入门金融风控之贷款违约预测挑战赛
DATAWHALE打卡-零基础入门金融风控之贷款违约预测挑战赛主要内容数据概况评价指标解答思路评分卡相关 参考:task1相关学习资料 主要内容 数据概况 数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 train.csv id 为贷款清单分配的唯一信用证标识 l原创 2020-09-15 20:38:14 · 373 阅读 · 0 评论 -
Datawhale 数据挖掘入门:模型融合 笔记
TASK5:模型融合 摘自 ML67 在Datawhale 数据挖掘入门:模型融合部分的讲义 1、主要内容 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,并利用...原创 2020-04-04 14:18:40 · 276 阅读 · 0 评论 -
Datawhale 数据挖掘入门:建模调参 笔记(3)
TASK4:建模调参 摘自 小雨姑娘 在Datawhale 数据挖掘入门:建模调参部分的讲义 1 线性回归 假设已经有了数据train_X,和trian_y 模型的建立 from sklearn.linear_model import LinearRegression model = LinearRegression(normalize=True) model = model.fit(train_...原创 2020-04-01 18:52:26 · 350 阅读 · 0 评论 -
Datawhale 数据挖掘入门:特征工程 笔记(2)
TASK3:特征工程 摘自 Datawhale 数据挖掘入门:特征工程部分的讲义 1 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 2 内容介绍 常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对...原创 2020-03-28 21:28:31 · 537 阅读 · 1 评论 -
Datawhale 数据挖掘入门:数据分析 笔记
TASK2:数据分析 摘自 AI蜗牛车 在Datawhale 数据挖掘入门:数据分析部分的讲义 赛题:零基础入门数据挖掘 - 二手车交易价格预测 地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX 1 主要的内容 载入各种数据...原创 2020-03-22 14:32:11 · 1256 阅读 · 0 评论
分享