自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 评分卡常见面试题

欺诈风险:是指因欺诈行为带来的可能的潜在的损失。

2025-01-17 18:06:18 959

原创 金融风控-授信额度模型

使用交叉矩阵细分客户群体的额度系数或额度值,主要考虑借款人的还款意愿(通过信用评分等预测)和还款能力(关注收入情况)两个维度。-人工审核:对于机审结果不满意的借款人,可以发起人工审批来重新确定额度,特别是针对资质较好的借款人进行更详细的评估。-借款人的信用状况:考虑借款人的信用评级、还款记录和还款能力等因素,设定适合其的最大和最小额度。-信用卡历史:分析申请人过去的信用卡使用和还款记录,良好的历史有助于获得更高的授信额度。-负债情况:考虑申请人的债务水平和其他未偿还债务的情况,以评估其整体财务健康度。

2024-12-31 15:55:35 532

原创 时间序列-分解趋势图怎么看

分解时间序列的图通常会展示原始时间序列数据以及从该数据中提取的不同组成部分,如趋势(Trend)、季节性(Seasonality)和剩余(Residuals)。举个例子,假设你看到一个时间序列分解图,其中原始数据表现出明显的上升趋势和每年的季节性变化,那么你应该能在趋势图上看到一个平滑的上升曲线,在季节性图上看到每年重复的模式,而在剩余图上则看不到明显的规律,而是一些随机波动。通过这样的分解,我们可以更清楚地理解数据中的不同成分,并为进一步的预测建模提供基础。

2024-12-31 15:39:42 322

原创 拒绝推断方法

在金融风控中,传统的风险评估模型通常是基于已经被接受的客户数据来构建的。例如,银行在构建信用评分模型时,只有那些成功获得贷款或信用卡的客户的数据被用于分析,而被拒绝的客户数据没有被纳入。这就导致了样本选择偏差,因为被接受和被拒绝的客户在风险特征上可能存在系统性差异。被拒绝的客户往往被认为是高风险的,但实际上其中可能包含一部分被误判的客户。

2024-12-31 15:34:47 809

原创 通俗理解Xgboost

为了简化计算,XGBoost采用了一阶导数(梯度)和二阶导数(Hessian)来近似损失函数的变化,从而推导出叶子节点值的更新公式。其中 z 就是所有树的叶子节点分数之和。通过这两个正则化项,XGBoost能够在优化目标函数时,不仅考虑损失函数的最小化,还考虑了模型的复杂度,从而达到更好的泛化性能。正则化项通常包括两个部分:一个是与叶子节点数量相关的项,另一个是与叶子节点输出值大小相关的项。通过这种方式,XGBoost能够有效地计算出每个叶子节点的值,同时通过正则化项来平衡模型的复杂度和泛化能力。

2024-11-20 12:57:11 356

原创 评分卡建模总结

1、调整分箱节点:结合变量含义、单调性,格外注意空值的含义。2、箱数:5箱左右,尽量保证样本占比均匀,单调。3、模型构建完成:看评分贡献度,变量间尽量均匀。

2024-11-11 11:05:07 143

原创 DataFrame要添加一行所有其它行对应列值的总和

【代码】DataFrame要添加一行所有其它行对应列值的总和。

2024-09-03 14:56:19 439

原创 时间序列-SARIMAX模型代码和结果检测

SARIMAX模型代码示例。

2024-08-30 08:56:20 707 1

原创 机器学习笔记(5)-LightGBM

LightGBM 是一个高性能的梯度提升框架,由 Microsoft 开发,旨在处理大规模数据集并提高训练效率。与 XGBoost 相比,LightGBM 采用了不同的策略来优化训练速度和内存使用,使其在处理大规模数据集时具有显著优势。

2024-08-05 16:50:07 586 1

原创 机器学习笔记(4)-XGBoost面试题

如果一个特征带来的增益很高,但只在一个或少数几个决策树中被使用,这可能表明该特征对模型有较大的影响,但也可能带来过拟合的风险,特别是如果它与噪声或异常值相关联。:该特征可能在许多决策树中作为分裂点出现,但它每次分裂带来的增益不高。:该特征可能在数据中具有多种不同的表现形式或状态,这使得它在多个决策树的多个节点中作为分裂点,但由于其对模型性能提升的平均贡献较小,所以增益不高。:如果一个特征在数据中引入了噪声,它可能会在树的构建中被频繁使用,但由于它引入的噪声,每次分裂带来的增益可能并不显著。

2024-07-31 14:49:32 899

原创 机器学习笔记(2)-决策树

(1)基尼值​Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,表示数据集整体的不确定性。Gini(D)越小,数据集D的纯度越高,不确定性越小。(2)基尼指数​表示经a分割后数据集D的不确定性。(3)基尼不纯度的减少量。

2024-07-19 17:41:17 1460

原创 【Python基础】常见问题整理

它允许开发者在对象创建时设定对象的状态,即给对象的属性赋初值。这个方法直接在原列表上操作,不需要返回新的列表,也就是说,它会就地修改列表。方法并不是强制性的,也就是说,如果你不定义它,Python 也会创建一个默认的。),也不做任何事情。: 开发者可以定义对象应该具有的初始状态,例如设置默认值或从参数中获取初始值。函数可以接受一个可迭代对象作为参数,如果可迭代对象中有任何一个元素为真,则返回。方法是一个特殊的方法,也被称为构造函数或初始化方法。参数是必需的,它指向实例本身,而其他的参数可以根据需要添加。

2024-07-18 13:46:02 399

原创 xgboost相关知识随笔

L1和L2正则化各有优势,选择哪种正则化方法取决于具体的应用场景和数据特点。在实际应用中,通常需要通过交叉验证等技术来选择合适的正则化参数𝜆λ和𝛼α(对于弹性网络)。

2024-07-10 10:50:36 450

原创 逻辑回归公式推导

逻辑回归公式推导

2024-05-17 19:45:21 251 1

原创 python面试题

找出列表中元素的所有可能组合中的最大值,可直接考虑5个原组合在一起的情况,最大值应该是 9534330。各位有好的想法,欢迎评论。

2024-05-17 16:03:41 924 1

原创 机器学习笔记(3)-XGBoost

XGBoost的基本组成元素是:决策树。这些决策树即为“弱学习器”,它们共同组成了XGBoost;并且这些组成XGBoost的决策树之间是有先后顺序的:后一棵决策树的生成会考虑前一棵决策树的预测结果,即将前一棵决策树的偏差考虑在内,使得先前决策树做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一棵决策树。

2024-05-13 14:12:35 787 1

原创 机器学习笔记(1)-集成学习简介

(1)基尼值Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,表示数据集整体的不确定性。Gini(D)越小,数据集D的纯度越高,不确定性越小。(2)基尼指数表示经a分割后数据集D的不确定性。

2024-05-12 16:24:47 927 1

原创 评分卡入模变量系数都是正的

WoE(Weight of Evidence)转换是一种将分类变量的每个类别映射到一个连续的数值,这个数值反映了该类别相对于参考类别(通常是目标事件发生率最低的类别)对于目标事件发生概率的影响强度。经过WoE转换后的变量系数都是正的,这是为了确保模型的输出能够正确反映不同类别对目标事件发生概率的影响,并且保持模型的解释性和一致性。这种设计使得评分卡模型更容易被业务理解和接受,同时也有助于模型在实际应用中的有效性。

2024-04-07 15:18:25 578

原创 绘制直方图

【代码】绘制直方图。

2024-04-07 09:43:25 223

原创 如何获取xgboost原生库默认参数值

【代码】如何获取xgboost原生库默认参数值。

2024-03-08 09:06:01 615 1

原创 Python删除字典中的一个值,并赋值给一个变量

删除指定的键(key)及其对应的值,并返回被删除的值。

2024-03-06 21:13:57 473 1

原创 如何获取df某列(Series)单一值次数占比最大值以及对应值

1、使用value_counts()函数计算每个值出现次数,"normalize=True"参数可将次数转化为占比,返回Series对象(value_counts )3、idxmax()方法获取Series对象最大值对应索引,即占比最大对应特征值。2、max()方法获取Series对象最大值。

2024-03-01 16:27:06 636 1

原创 判断Series是否为空

Series不包含任何元素在pandas中,当且仅当一个Series不包含任何元素,才被认为是“空”的,而Series内元素全为NaN或None也会被认为非空。

2024-02-29 14:58:48 1370 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除