
金融风控学习笔记
Ag+Cu
vue前端\数据分析,数字游民爱好者
展开
-
金融风控训练营Task06学习笔记
学习知识概要 比赛:贷款违约预测: 读取文件 查看缺失值 填充缺失值 填充平均数 填充众数 类别预处理 删除异常值 建模 学习内容 读取文件 data_train = pd.read_csv(‘train.csv’) data_test_a = pd.read_csv(‘testA.csv’) 查看缺失值 print(f’There are {data_train.isnull().any().sum()} columns in train dataset with missing values.’) 填充原创 2021-05-12 13:27:43 · 222 阅读 · 1 评论 -
金融风控训练营Task05学习笔记
学习知识概要 stacking/blending讲解 stacking blending 平均法 投票法 学习内容 stacking/blending讲解 其模型的庞大程度与效果的提升程度往往不成正比, 所以一般很难应用于实际生产中。 1.1 stacking 本质是一种分层的结构,用了大量的基分类器,将其预测的结果作为下一层输入的特征,这样的结构使得它比相互独立训练模型能够获得更多的特征。 缺点: 用训练集训练原始模型, 又用训练的模型去预测训练集,会过拟合训练集 解决方法: 次级模型尽量选择简单原创 2021-05-03 23:24:56 · 189 阅读 · 0 评论 -
金融风控训练营Task04学习笔记
学习知识点概要 逻辑回归模型 树模型 集成模型 模型对比与性能评估 模型调参 学习内容 逻辑回归模型 定义: 分类机器学习算法,将数据拟合到一个logit函数中,完成对数据发生概率的预测。 作用: 适合二分类问题 用代价函数调参:局部最优点 梯度下降法调参:全局最小值点 树模型 ID3算法 定义: 在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。 作用: 分类可视化 集成模型 GBDT 很多个基模型的线性相加,基模型为CART回归树。利用奥卡姆剃刀减枝 Xgboost 分步前向加性模型,k原创 2021-05-01 18:37:31 · 205 阅读 · 0 评论 -
金融风控训练营Task03笔记
学习知识点概要 特征值处理 缺失值补充 时间格式处理 类别特征处理 异常值处理 数据分桶 特征交互 特征编码 特征选择 学习内容 特征值处理 查找特征 .select_dtypes():根据数据类型选择特征 缺失值填充 .fillna():用字典填充 时间格式处理 .striptime():根据指定的格式把一个时间字符串解析为时间元组 类别特征处理 .nunique():返回唯一值得个数 异常值处理 均方差 数据分桶 特征分箱的目的: 降低变量的复杂性,减少变量噪音的影响,提高自变量和因变量的相关原创 2021-04-28 08:25:15 · 175 阅读 · 0 评论 -
金融风控训练营Task02学习笔记
一·学习知识点概要 导入数据 分析数据 2.1 查看样本个数和数据维度、理解特征含义 2.2 查看数据类型 查看数据 3.1 查看数据各特征的基本统计量 3.2 查看数据特征缺失值和唯一值 变量分析 4.1 连续型变量分析 4.2 非数值类别型变量分析 数据可视化 5.1 单一变量分布可视化 5.2 时间格式数据 5.3 透视图 生成数据报告 二·学习内容 1. 导入数据 工具库:pandas 函数:read_csv 参数nrows:设置读取文件的前多少行 2. 分析数据 查看样本个数和特征维度 .s原创 2021-04-24 08:08:50 · 217 阅读 · 1 评论 -
金融风控训练营Task01学习笔记
一 · 知识点概要 比赛目标 比赛数据 训练集 测试集A、B 预测指标 混淆矩阵 准确率 精确率 召回率 F1 Score P-R曲线 ROC TPR FPR AUC KS统计量 ROC AUC 赛题流程 代码示例 数据读取pandas 分类指标评价计算示例 经验总结 拓展知识——评分卡 二· 学习内容 比赛目标 根据提供的贷款申请人的数据信息预测其是否有违约,判断是否通过此...原创 2021-04-21 21:31:43 · 139 阅读 · 0 评论