自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubyw的博客

努力学习成长!

  • 博客(234)
  • 资源 (4)
  • 收藏
  • 关注

原创 删除列属性、行属性

【代码】删除列属性、行属性。

2024-12-31 13:46:49 104

原创 报错:FileNotFoundError: [WinError 2] “dot“ not found in path.(dot路径未找到)

【代码】报错:FileNotFoundError: [WinError 2] “dot“ not found in path.(dot路径未找到)

2024-12-24 18:29:01 140

原创 等额本息/等额本金/等本等息

需要注意的是,等本等息在实际金融业务中可能存在一定争议,因为其计算利息的方式本质上是按照初始本金全额计算每期利息,实际利率往往高于名义利率。与等额本息相比,虽然每月还款金额的计算公式看起来类似,但等本等息的利息计算没有考虑本金的偿还情况导致利息总额计算方式不同。等额本金还款方式下,每月偿还的本金固定,利息随着本金的减少而逐月递减,每月还款金额逐月递减。等额本金方式前期还款压力相对较大,但总利息支出相对等额本息方式较少。这种还款方式的特点是,已归还贷款本金累计额。

2024-12-24 16:20:38 1640

原创 如何选择聚类算法、回归算法、分类算法?

如何选择聚类算法如何选择回归分析算法如何选择分类分析算法

2024-11-20 10:58:51 416

原创 互联网金融场景下的风控模型分类

授信阶段:申请评分模型,反欺诈模型,风险定价模型,收益评分模型。贷后阶段:行为评分模型,交易欺诈模型,客户流失模型。获客阶段:用户响应模型,风险预筛选模型。催收阶段:早期催收模型,晚期催收模型。

2024-11-11 09:25:30 1115

原创 自然语言处理与文本分析及挖掘:原理、算法及应用场景介绍

句子语义则需要分析句子结构,例如通过语义角色标注,在句子“小明给小红一本书”中,“小明”是施事者,“小红”是受事者,“一本书”是客体,“给”是动作,这有助于理解句子的核心语义。在英语中,句子通常有明确的语法结构,如主谓宾结构。以句子“I love you”为例,“I”是主语,“love”是谓语动词,“you”是宾语。:英文单词间通常有空格分隔,但也有特殊情况,如缩写(“I’m”需分为“I”和“'m”)和连字符连接的单词(“e - mail”作为一个词),可以用简单规则或正则表达式处理。

2024-10-29 19:22:13 1368

原创 金融风控:信用评分卡模型将用户违约率预测的概率转化为评分卡分数的方法

【代码】金融风控:信用评分卡模型将用户违约率预测的概率转化为评分卡分数的方法。

2024-10-22 16:40:46 284

原创 机器学习:分类模型常用的评估指标:混淆矩阵、精确率、召回率、F1 score、P-R曲线、ROC曲线、AUC面积、KS曲线

1、混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )2、准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。

2024-10-22 16:36:35 686

原创 数据分箱:决策树得到特征的分箱区间后后怎么映射到原数据中?

在这个例子中,我们将原数据中的每个值与分箱区间进行比较,确定其所属的分箱,并将分箱结果映射回对应的区间描述,存储在新的列中。如果一个值不匹配任何分箱,可以根据需要进行特殊处理。

2024-10-20 01:56:52 380

原创 特征分箱:在10以内的分箱数中选择最优分箱

这个示例创建了一个简单的信用数据模拟,并计算了债务收入比,然后根据债务收入比的分箱计算了违约率。如果“credit_risk_analysis”库是用于信用风险分析的,它可能提供更复杂的功能,如特征工程、模型构建和评估等。如果你能提供更多关于“credit_risk_analysis”库的信息,比如它的功能描述、文档片段等,我可以为你提供更具体的代码示例。很抱歉,由于不清楚“credit_risk_analysis”库的具体内容和功能,我无法为你提供确切的代码示例。

2024-10-20 01:54:41 206

原创 数据分箱:如何确定分箱的最优数量?

需要注意的是,确定最优分箱数量通常是一个迭代的过程,需要结合多种方法进行尝试和评估,同时也要考虑计算成本和模型的可解释性。

2024-10-20 01:21:36 618

原创 特征编码:假如是树模型,还需要特征编码吗?

综上所述,在使用树模型时,是否需要进行特征编码要根据具体情况来决定。需要综合考虑特征的类型、数量、数据的分布以及模型的性能和可解释性等因素。如果使用树模型,不一定需要进行传统的特征编码,具体取决于特征的性质和数据的情况。

2024-10-20 01:18:45 445

原创 SelectFromModel:如何调整阈值来控制特征选择的数量?

需要注意的是,调整阈值是一个迭代的过程,需要根据具体的数据集和问题进行调整。同时,不同的阈值可能会对模型性能产生不同的影响,需要综合考虑特征数量和模型性能来选择合适的阈值。

2024-10-20 01:16:22 737

原创 如果某个特征缺失率达到70%左右,不能删除的情况下怎么处理合适?

【代码】如果某个特征缺失率达到70%左右,不能删除的情况下怎么处理合适?

2024-10-12 14:00:55 852

原创 机器学习:回归模型和分类模型的评估方法介绍

回归模型和分类模型评估方法详解一、回归模型评估方法(一)均方误差(MSE)原理均方误差是衡量回归模型预测值与真实值之间平均平方差的指标。它通过计算预测值与真实值之差的平方的平均值来评估模型的性能。其数学公式为:MSE=1n∑i=1n(yi−y^i)2MSE = \frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2MSE=n1​i=1∑n​(yi​−y^​i​)2其中,nnn是样本数量,yiy_iyi​是第iii个样本的真实值,y^i\hat{y}_iy

2024-10-10 18:05:21 1220

原创 机器学习:情感分析的原理、应用场景及优缺点介绍

情感分析是自然语言处理中的一个重要任务,主要用于判断文本中所包含的情感倾向,如正面、负面或中性。

2024-10-10 18:03:49 1112

原创 机器学习:情感分析的原理、应用场景及优缺点介绍

情感分析是自然语言处理中的一个重要任务,主要用于判断文本中所包含的情感倾向,如正面、负面或中性。

2024-10-10 17:59:09 2088

原创 机器学习:序列模式算法的原理、应用场景及优缺点介绍

序列模式挖掘是数据挖掘的一个重要分支,主要用于发现数据集中的序列模式,即按照时间或其他顺序排列的事件模式。

2024-10-10 17:58:05 1368

原创 机器学习:关联规则:Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍

关联规则挖掘是数据挖掘中的一个重要任务,用于发现数据集中不同项之间的关联关系。

2024-10-10 17:56:36 1342

原创 机器学习:神经网络与深度学习的原理、应用场景及优缺点

深度学习是机器学习的一个分支领域,它通过构建具有多个层次的神经网络来自动学习数据的特征表示。神经网络是深度学习的基本模型结构,模拟了生物神经元之间的信息传递方式。

2024-10-10 13:26:10 1966 1

原创 机器学习:决策树算法:ID3、C4.5、CART、CHAID:原理、应用场景及优缺点

一、ID3算法原理应用场景优点缺点二、C4.5算法原理应用场景优点缺点三、CART算法(分类与回归树)原理 - 分类任务应用场景优点缺点四、CHAID算法原理应用场景优点缺点假设我们有一个数据集用于判断是否购买电脑,数据集如下:

2024-10-10 12:56:20 1870

原创 机器学习:朴素贝叶斯算法的原理及应用场景、优缺点简单介绍

朴素贝叶斯是一种基于贝叶斯定理的简单概率分类算法。它假设特征之间相互独立,这是其“朴素”的由来。例如,若有100封邮件,其中60封是非垃圾邮件,那么非垃圾邮件的先验概率。比如在非垃圾邮件类别中,单词“优惠”出现了10次,非垃圾邮件有60封,那么。对于所有类别都是相同的,在比较不同类别后验概率大小时可以忽略。为类别变量(如垃圾邮件和非垃圾邮件类别),为特征向量(如邮件中的单词出现情况)。在分类问题中,我们设。

2024-10-09 14:37:00 1339

原创 机器学习特征工程中常用的特征编码方法

哑变量属于独热编码(One - Hot Encoding)的一种通俗说法。

2024-10-08 08:56:16 946 1

原创 SQL:如果字段需要排除某个值但又有空值时,不能直接用“<>”或not in

在 SQL 中,如果字段需要排除某个值但又有空值存在时,不能直接使用“<>”(不等于)或。,是因为这些操作会把空值也考虑进去,但通常情况下可能并不希望空值被这样处理。,否则返回字段值,然后进行不等于比较,从而排除特定值并正确处理空值。这种方法不会排除掉空值,只排除了特定值,确保空值不会被错误地处理。,这样就可以在比较时避免空值的干扰,同时排除特定值。语句根据字段是否为空进行判断,如果为空则返回。是一个不可能与实际数据混淆的值。

2024-09-27 11:15:51 885

原创 数据分析中:相关系数计算方法怎么选择合适?

综上所述,选择合适的相关系数计算方法需要综合考虑数据类型、分布特点、变量关系以及样本大小等因素。在实际应用中,可以尝试多种方法,比较不同方法得到的结果,并结合专业知识和实际情况进行判断和解释。

2024-09-13 18:09:49 1781

原创 特征变量基于目标变量分箱后的结果应该怎么通过lift、iv、ks值进行评估分析比较是否合适?

在实际应用中,可以综合考虑 Lift、IV 和 KS 值来评估特征变量基于目标变量分箱后的结果。如果一个特征变量在多个评估指标上都表现良好,那么它可能是一个对目标变量有较强预测能力的重要特征。同时,也可以根据具体的业务需求和数据特点,选择合适的评估指标进行分析。

2024-09-11 10:39:20 1016

原创 变量有重复值怎么分箱?

lenlen。

2024-09-11 10:15:27 187

原创 数据分桶:等宽分箱、等频分箱、分位数分箱,卡方分箱、WOE分箱、机器学习分箱

Python 实现相对复杂,通常需要借助专门的库。

2024-08-28 15:57:39 2312

原创 机器学习:多个分类模型建模融合

【代码】机器学习:多个分类模型建模融合。

2024-08-12 10:51:45 190

原创 金融风控评估模型指标:KS、PSI

一个常见的情形是,离线评测模型的KS值很高,但是等到上线应用后,模型的KS很快就大幅“衰减”了,而且很多时候都是离线提升的越多,线上衰减越大。这里其实有个观察的误区,所谓的“衰减”是指在不同时期的不同用户集合上的KS值比较,而实际上不同集合间的KS绝对值是没有比较意义的。性能稳定性则是指,要保证预测分数区间对应的真实风险是相对稳定的,比如600-650分之间对应的逾期风险是1%,那么我们希望在所有月份上真实风险都能稳定在1%的水平附近。而在相同逾期率的水平下,新模型的通过率提升多少,可以提升整体规模多少。

2024-08-10 22:51:08 663

原创 金融风控融合指标:年华风险/人数逾期率

2024-08-10 22:46:50 141

原创 金融风控场景下的数据分析、模型与策略

举例来说,在汽车贷款业务中,数据分析发现客户的工作年限、过去的信用违约记录以及车辆价值与贷款违约率密切相关。如果发现某一地区的逾期率突然上升,深入分析原因,可能是当地经济环境恶化,进而调整该地区的信贷政策。总之,金融风控中的数据分析为模型提供了坚实的数据基础,模型的输出结果为策略的制定提供科学依据,而策略的有效实施又能反馈到数据中,推动数据分析和模型的不断优化和改进,形成一个持续完善的风险管理闭环。在金融风控场景中,数据分析、模型与策略的相互作用和协同对于有效管理风险、保障金融机构的稳健运营至关重要。

2024-08-10 22:19:54 620

原创 金融风控数据分析主要关注指标:vintage、roll rate 和 迁移率

Vintage分析通过将不同时期放款的资产按照账龄进行分组,并跟踪其在每个账龄阶段的表现,为评估资产质量和风控策略效果提供了有力的工具。vintage在报表体系中,Vintage报表通常会呈现不同放款月份的资产在各个账龄阶段的详细指标,如逾期金额、逾期率、不良金额、不良率等。通过图表的形式,直观展示资产质量的变化趋势。2024 年 2 月 | 1 | 80,000 | 1.6% | 40,000 | 0.8%

2024-08-10 18:16:30 1815

原创 在jupyter lab怎么指定python环境?

打开 Jupyter Lab ,在新建 Notebook 时,您应该能够在“Kernel”选项中看到您注册的虚拟环境,选择它即可在该环境中运行代码。首先,确保您已经创建并激活了想要使用的 Python 虚拟环境。替换为您实际的虚拟环境名称。例如,如果您的虚拟环境名为。

2024-08-06 20:30:46 877

原创 如何构建销售分析指标体系?

2024-08-05 02:13:02 175

原创 如何构建app活动分析指标体系?

2024-08-05 02:11:29 186

原创 数据运营中常见的指标类型分类

2024-08-05 02:09:15 292

原创 数据分析师笔试试卷五:SQL、Python——(YH)

现有用户购买行为表记录了客户ID、购买的产品ID和每次购买的金额,如下表,请统计每个产品购买金额前3的用户,输出产品ID、客户ID和购买金额。1.3-请用SQL语句查询每一天申请的订单数量,通过的数量,通过率,放款总金额,放款件均(base_apl 左关联 base_loan)接下来,可以先尝试 1.5 的平方,即 1.5×1.5 = 2.25,因为 2.25 小于 3,所以 大于 1.5。两个对象完全独立,互不影响。首先,我们知道 1 的平方是 1,2 的平方是 4,所以 的值在 1 到 2 之间。

2024-08-05 02:06:05 1146

原创 数据分析师笔试试卷四:SQL——视频(KS)

假设总共有 N 条视频数据,总共有 M 个不同的审核员 ID,每个审核员 ID 在总量中的数量为 n_i,则抽取数量为 floor(1000 * n_i/N),其中 floor函数表示向下取整。x2~y1之间重复计算的时间就是多开)求每个审核员剔除多开后的时间(注:审核时间=提交时间-领取时间) (25分,考点:逻辑***)4、现在要从总量中抽出1000条提交事件的视频数据,要求每个审核员id的抽取比例要相近 (注:抽取比例=抽取量/总量) (20分,考点:逻辑*)

2024-08-05 01:46:38 563

原创 SQL优化的方法有哪些?

有两个表, customers ( customer_id , name )和 orders ( order_id , customer_id , amount )。优化后:可以先对 orders 表按照 customer_id 进行分组求和,得到一个临时表,然后再与 customers 表进行连接,提高效率。假设有一个用户表 users ,包含 id(用户 ID ,主键)、name(用户名)、age(年龄)和 city(所在城市)等列。,这样会返回该客户的所有订单然后再排序,数据量可能很大。

2024-07-22 18:36:40 736

武汉echarts地图js文件

武汉echarts地图js文件

2023-10-27

苏州echarts地图js文件

苏州echarts地图js文件

2023-10-27

MongoDB-windows-x86-64-5.0.20

MongoDB5.0安装包

2023-09-01

Linux: CentOS 6.8

Linux: CentOS 6.8

2022-06-20

Tableau 10.5.0

Tableau 10.5.0

2022-06-20

intellij idea 2019.2

具体安装可搜索安装方法

2022-06-20

linux:CentOS6.9

linux:CentOS6.9

2022-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除