- 博客(8)
- 收藏
- 关注
原创 LightGBM模型进行信贷违约预测时特征稳定性分析、拟合情况分析及优化
评估过拟合还是欠拟合,一般有两种曲线类型,横坐标表示train_sizes,纵坐标有两种方式,一种是loss or Mean Squared Error(均方误差,越小,说明模型描述数据越精确);查看学习曲线,发现train score很高,test score较低,说明模型过拟合。上一篇使用lightgbm模型对信贷数据违约预测,模型psi=0.5295,表明模型不稳定,不可用,为了对模型psi进行优化,主要是从两方面着手,一是模型特征稳定性分析,二是模型拟合情况分析,以及模型有针对性的调优。
2023-10-20 17:09:35
410
1
原创 LogisticRegression模型对信贷违约的预测以及模型AUC、KS、PSI指标的计算
Age大于96小于8的数值,MonthIncome删除大于3.0的数据,realestate删除大于50的数值,dependents删除大于50的数值。7.使用箱线图分析'Age','MonthIncome','OpenL','RealEstate','Dependents'变量分布特征。4.处理RevolvingRatio,DebtRatio百分比异常的数值,使用删除大于1的数值计算均值,替代大于1的百分比。10.相关性分析,删除相关性大于0.6的特征,'IncAvg'和'DeptAvg'
2023-06-14 17:16:50
1137
1
原创 使用LightGBM模型对信贷数据预测,以及AUC、KS、PSI计算
AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。(二)大部分缺失值处理使用中位数进行缺失值填充的方法,对于部分类别型变量先变成浮点型进行中位数填充,再转换成类别型变量,包括Credit_Mix,Payment_Behaviour,Monthly_Balance。超参数调整(或优化)是确定可最大化模型性能的超参数的正确组合的过程,超参数的选择决定了训练的效率。模型PSI指标大于0.25,说明模型不能使用,那就下一篇研究如何调优lightgbm模型psi指标。
2023-06-14 09:19:25
2253
2
原创 评分卡建模面试常见问题
通过重编码可以提升变量的稳定性和预测能力,例如变量分箱,可以平滑变量,增强变量稳定性,进而在通过WOE映射将分箱映射为相应的WOE值,一方面实现对缺失值和异常值的适应,另一方面增强逻辑回归中与目标变量的线性相关性,提升模型效果。一个事件的几率是指该事件发生的概率与不发生的概率的比值,这个式子表示该事件的对数几率,等号右边是线性函数表达式 wx,表示输出Y=1的对数几率,是由输入x的线性函数表示的模型。先求似然函数,再求对数似然函数,对数似然函数是上凸函数,用梯度上升法求的最大值所对应的参数w的值;
2023-06-07 18:47:45
521
1
原创 使用LogisticRegression和LightGBM模型对信贷违约进行预测----基于kaggle比赛数据
3.分离数值型变量与类别型变量,发现有些数值型变量因为输入不规范,比如数值中含有字符(28_,_10000_等)被划分为类别型变量 ,比如 'Age','Annual_Income','Num_of_Loan', 'Num_of_Delayed_Payment', 'Changed_Credit_Limit','Credit_Mix','Monthly_Balance', 'Outstanding_Debt' ,'Amount_invested_monthly'等。三、分箱,woe编码,计算IV值。
2023-06-07 18:11:37
1316
1
原创 ==和!=
表示给temp【col】赋值:符合条件的赋值为1,不符合条件的赋值为0,整个col列按0-1分类。true时返回,非空值时为true,空值、0、none等为false。false时返回,空值、0、none等为false,非空时为true。
2023-02-10 16:22:51
86
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人