
评分卡模型
文章平均质量分 91
小·幸·运
你的所有努力最后都会回赠予你。
展开
-
特征选择方法
文章目录一、过滤法(Filter)1. 数据缺失情况变量筛选2. 方差变量筛选3. 预测能力变量筛选4. 基于业务理解的变量筛选(IV值,PSI值)5. 相关性指标变量筛选6. 主成分分析PCA二、包装法(Wrapper)常用方法:递归特征消除法(RFE,后向搜索方法)三、嵌入法(Embedding)1. 加入L1正则的模型2. 基于树模型的变量选择(随机森林,Xgbosot)3. 在评分卡模型中如果使用逻辑回归模型,也可以做特征选择四、一般的变量选择流程1. 基于IV值进行初步筛选2. 聚类分析3. 相关原创 2021-04-16 18:46:16 · 1343 阅读 · 0 评论 -
GBDT,Xgboost和LightGBM对比总结
目录前言一、GBDT二、Xgboost前言集成学习大致可分为两种:并行的集成学习方法Bagging和串行的集成学习方法Boosting。并行的集成学习方法,如随机森林,各个基学习器的构建是独立的,没有先后顺序。串行的集成方法,各个基学习器之间有强烈的依赖关系,如Adaboost, GBDT, Xgboost,LightGBM等。一、GBDTGBDT算法实现步骤如下:给定数据集T=(x1,y1),(x2,y2),...,(XN,yN)T={(x_1,y_1),(x_2,y_2),...,(X_N,y原创 2021-03-24 18:54:37 · 414 阅读 · 0 评论 -
Logistic回归模型:常用参数优化方法总结
前言Logistic模型常用的参数优化方法有,梯度下降法,牛顿法,拟牛顿法,坐标轴下降法等。Logistic回归模型可以表示如下:y=11+e−(wTx+b)y=\frac{1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1令y=h(x),则有下式:P(y∣x;w)=(h(x))y(1−h(x))1−yP(y|x;w)=(h(x))^y(1-h(x))^{1-y}P(y∣x;w)=(h(x))y(1−h(x))1−y其中,y取值0或1,构造似然函数如下:L(w)=∏i原创 2021-03-19 10:49:14 · 7087 阅读 · 0 评论 -
信用评分卡建模:logistic模型
前言logistic模型是基本线性回归模型的扩展,为了解决其无法对非线性问题分类,进行函数变换得到logistic模型,但logistic模型只能处理二分类问题,softmax在logistic模型的基础上进行改进,可以进行多分类。一、logistic模型基本线性回归模型公式如下:f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b其中wTw^TwT是参数向量,x是样本,b为偏置项。为了得到非线性效果,进行函数变换得到对数线性回归模型:f(x)=ln(wTx+b)f(x)=\原创 2021-03-15 12:17:11 · 979 阅读 · 0 评论 -
信用评分卡建模:决策树模型
文章目录前言一、决策树原理二、决策树剪枝(pruning)前言在评分卡建模中,模型可解释性很重要,除了Logistic回归模型,决策树也是一个非常好理解的模型。决策树是一种贪心算法,得到的树不一定是最优的,而是效果较好的次优模型。决策树学习步骤为:特征选择->决策树生成->剪枝。一、决策树原理由于决策树模型无法提前知道,所以只能先从根节点开始在属性空间中选择最优的属性进行分裂得到不同的分支,即中间节点,然后中间节点继续在属性空间中选择最优的属性进行下一次分裂,以此类推,直到满足条原创 2021-03-12 15:48:46 · 2186 阅读 · 0 评论 -
信用评分卡建模:样本不均衡处理方法总结
前言在实际的评分卡开发中,会出现样本不均衡问题,比如违约样本远少于不违约样本,,通常将少数样本(坏样本)定义为正样本,多数样本(好样本)定义为负样本。要求模型对正负样本均有较好的区分能力,但样本不均衡的情况下则很难实现。样本不均衡会在特征选择,模型训练,评估指标等环节均产生严重影响,降低模型性能。本文依次从数据层,算法层和模型评估层介绍样本不均衡的处理方法。一 数据层1. 数据层下采样方法1)随机下采样方法 自助法抽样(Bootstrap Sampling)2)样本邻域选择的下采样方法原创 2021-03-08 21:22:16 · 2379 阅读 · 0 评论