
机器学习
文章平均质量分 52
小成星际
这个作者很懒,什么都没留下…
展开
-
《Python金融大数据风控建模实战》 第18章 模型融合
《Python金融大数据风控建模实战》 第18章 模型融合本章引言Python代码实现及注释本章引言模型融合思想认为,在多个表现较好的模型中,每个模型的预测结果都有一定的参考价值,并且每个模型在建模时考虑的策略也各有差异,如果能综合多个模型的优点,则最终的结果可能会更好。常用的方式为等权重加和,即每个模型的权重都是相同的。对于分类问题可以采用投票表决的方法将相对多的结果作为最终的决策结果;对于回归问题,可以采用求平均值的方式将均值作为最终的预测结果。另一种方法是给每个模型以不同的权重,这种方法假设大原创 2021-03-28 16:00:09 · 1171 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第17章 集成学习
《Python金融大数据风控建模实战》 第17章 集成学习本章引言Python代码实现及注释本章引言集成学习旨在通过训练多个模型,扩展假设空间,进而逐步接近真实数据集中蕴含的规则。同时,多个训练模型同时陷入局部最小值的概率较低,保证了测试集可以得到相对较优的结果。目前,集成学习大致可分为两种:并行的集成方法Bagging和串行的集成方法Boosting。并行的集成方法中,基学习器的构建是相互独立的,没有先后顺序,可以同时进行建模。而串行的集成方法中,各个基学习器之间有强烈的依赖关系,即后一个模型是在前原创 2021-03-28 14:51:06 · 629 阅读 · 1 评论 -
《Python金融大数据风控建模实战》 第16章 支持向量机模型
《Python金融大数据风控建模实战》 第16章 支持向量机模型本章引言Python代码实现及注释本章引言Python代码实现及注释t sys#path = __file__#path = os.path.abspath(path + ((os.sep + '..') * 2))#sys.path.append(path)import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_s原创 2021-03-28 11:35:13 · 616 阅读 · 1 评论 -
《Python金融大数据风控建模实战》 第15章 神经网络模型
《Python金融大数据风控建模实战》 第15章 神经网络模型本章引言Python代码实现及注释本章引言神经网络模型是深度学习的基础。 从神经网络的结构中可以发现,模型的未知参数就是一系列权重值,网络结构越复杂其非线性表达能力越强,同时需要学习的权重就越多。误差反向传播算法(error BackPropagation,BP算法)是神经网络的学习策略中最著名的算法代表,不仅用于前馈神经网络的学习,还可以用于其他类型的神经网络,如递归神经网络的训练,而且在深度学习中也是采用BP算法进行网络训练的。Pyth原创 2021-03-23 17:27:48 · 754 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第14章 决策树模型
《Python金融大数据风控建模实战》 第14章 决策树模型本章引言Python代码实现及注释本章引言在评分卡建模中,模型可解释性也很重要。除了Logistic回归模型,决策树模型也是一个非常好理解的模型。决策树模型的规则组合以树的形式展现,由根节点到每一个叶结点的路径构成了一条规则,路径上中间节点的特征对应着具体规则的条件,每个叶结点代表决策结果。同时,这个规则集合具有互斥并完备的性质,即每一个实例都有且只有一条路径或一条规则所覆盖。决策树模型也可以理解为定义在特征空间与类空间的条件概率分布,由训练原创 2021-03-23 13:16:54 · 1051 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第13章 特征工程进阶
《Python金融大数据风控建模实战》 第13章 特征工程进阶本章引言Python代码实现及注释本章引言数据和特征决定了机器学习的上限,而模型和算法只是进一步接近这个上限而已。特征工程在整个机器学习中的重要性不言而喻,而且特征工程严重依赖于行业知识。深度学习的出现给自动特征工程带来了希望,深度学习提出了一种端到端的学习模式,即无须人工特征工程,而只需要给定输入数据与预测目标,模型即可自动实现特征工程和训练等过程。但是,深度学习在图像数据、语音、时序数据中可以很好地实现自动特征工程,而对于样本间相互独立的原创 2021-03-21 15:13:28 · 682 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第12章 样本不均衡处理
《Python金融大数据风控建模实战》 第12章 样本不均衡处理本章引言Python代码实现及注释本章引言在实际的评分卡开发过程中,会出现分类样本不均衡的情况,比如违约的样本远远小于不违约的样本,这就是样本不均衡的分类问题。通常将数量较少的样本(坏样本)定义为正样本,将数量较多的样本(好样本)定义为负样本。要求模型对正样本(坏样本)和负样本(好样本)均具有较好的区分能力,但是在样本不均衡的情况下很难实现。特征选择时的影响样本不均衡会影响变量选择的效果。模型训练时的影响模型训练是在特征选择原创 2021-03-20 15:52:52 · 894 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第11章 模型在线监控
《Python金融大数据风控建模实战》 第11章 模型在线监控本章引言Python代码实现及注释本章引言第9章介绍了在模型开发阶段的评估指标。模型完成开发后,如果其性能满足基本要求,就可以在生产环境中上线使用。在这个阶段仍然需要对模型指标进行评估,其目的在于判断模型的有效性,通过指标的判断给模型提供更新机制,即模型要使用多久,以及当哪些指标发生恶化后需要终止使用并重新开发新模型。模型评估指标决定了模型上线使用的生命周期。Python代码实现及注释# 第11章:模型在线监控import osim原创 2021-03-20 11:10:32 · 538 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第10章 评分卡分数转化
《Python金融大数据风控建模实战》 第10章 评分卡分数转化本章引言Python代码实现及注释本章引言将模型预测概率转化为分数并设定分数阈值,是评分卡模型开发中非常重要的部分,这一步直接影响审批策略是否得当,进而影响信贷企业的利润与风险。由概率转化为分数需要满足以下条件:样本总的分数是由每个变量的分数之和累加得到模型预测概率的变化会引起分值以某一单位刻度发生改变每个变量的取值发生变化会引起样本分值的改变Python代码实现及注释# 第10章:评分卡生成import osimpo原创 2021-03-13 20:45:09 · 1229 阅读 · 0 评论 -
《Python金融大数据风控建模实战》 第9章 模型的评估指标
《Python金融大数据风控建模实战》 第9章 模型的评估指标本章引言Python代码实现及注释本章引言模型的开发基于历史数据,而模型的使用则针对未来的数据。为了模拟这种建模方式,将数据集分为三部分:训练集、验证集和测试集。模型在训练集上的误差,即真实结果与预测结果间的差异,称为训练误差或经验误差;模型在验证集与测试集上的误差称为泛化误差。单个模型在训练集上训练希望训练误差较小,并在验证集上测试模型表现以确定单个模型的最优参数,当有多个候选模型时,需要在测试集上对比不同模型的测试表现,以选出最优的模型原创 2021-03-13 17:36:28 · 765 阅读 · 2 评论 -
《Python金融大数据风控建模实战》 第8章 Logistic回归模型
《Python金融大数据风控建模实战》 第8章 Logistic回归模型本章引言Python代码实现及注释本章引言Logistic回归是建立评分卡模型最常用的方法,因其具有输出概率、可解释性好和模型参数少等优势,即使在其他各种机器学习算法突飞猛进的情况下,也仍然是工业界建立评分卡模型的主流方法,其模型表现也常作为参考标准,用于衡量其他机器学习模型的效果。Python代码实现及注释# 第8章:logistic回归模型import osimport pandas as pdimport nump原创 2021-03-13 11:35:12 · 1237 阅读 · 2 评论 -
《Python金融大数据风控建模实战》 第7章 变量选择
《Python金融大数据风控建模实战》 第7章 变量选择本章引言Python代码实现及注释本章引言变量选择常见的方法有过滤法、包装法、嵌入法,并且在上述方法中又有单变量选择、多变量选择、有监督选择、无监督选择。在实际应用中,单纯从数据挖掘的角度进行变量选择是不够的,还要结合业务理解对选择后的变量进行回测,以符合业务解释。Python代码实现及注释# 第7章:变量选择'''在变量分箱的基础上进行变量编码,然后进行变量编码,然后进行变量选择,变量选择程序主要采用scikit-learn包中的fea原创 2021-03-07 15:18:12 · 1396 阅读 · 4 评论 -
《Python金融大数据风控建模实战》 第6章 变量分箱方法
《Python金融大数据风控建模实战》 第6章 变量分箱方法本章引言Python代码实现及注释本章引言变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。变量分箱对模型的好处:降低异常值的影响,增强模型的稳定性数据中存在异常值会使模型产生一定的偏差,从而影响预测效果。通过分箱模型可以降低异常值的噪声特性,使模型更稳健。树模型对异常值不敏感,但Logistic回归模型和神经网络对异常值敏感。缺失值作为特原创 2021-02-11 17:19:31 · 2860 阅读 · 6 评论 -
《Python金融大数据风控建模实战》 第5章 变量编码方法
《Python金融大数据风控建模实战》 第5章 变量编码方法本章引言Python代码实现及注释本章引言在机器学习中,样本、变量、标签、模型等概念会频繁出现,本章从变量角度给出实际应用中的处理方法。机器学习模型通常只能处理结构化数据,而非结构化数据要转化为结构化数据才可以用于模型训练。在机器学习中,变量、字段、属性、特征、输入、预测因子、自变量是同一个意思,样本、观测、实例、记录是同一个意思,结果、预测变量、输出、目标、因变量、响应、标签是同一个意思。在统计学中,将变量按照取值是否连续分为离散变量和连续原创 2021-02-06 21:35:40 · 1258 阅读 · 0 评论 -
《Python金融大数据风控建模实战》第4章 数据清洗与预处理
《Python金融大数据风控建模实战》 第4章 数据清洗与预处理本章引言Python代码实现及注释《Python金融大数据风控建模实战》第4章 数据清洗与预处理本章引言数据清洗与预处理是整个评分卡模型开发乃至整个机器学习模型开发中非常重要的部分,通常包括数据集成、数据清洗、探索性数据分析和数据预处理。数据集成:将多个数据源的数据构成一个统一的数据结构或数据表的过程。如果不同数据源有结构化数据与非结构化数据,数据集成时要统一转换为结构化数据,并存储在数据库或数据表中,以备后续模型开发时使用。数据清原创 2021-02-04 18:20:39 · 2246 阅读 · 9 评论