
数据挖掘
文章平均质量分 94
一缕阳光lyz
这个作者很懒,什么都没留下…
展开
-
主成分分析PCA
在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA下面我们主要基于sklearn.decomposition.PCA来讲解如何使用scikit-learn进行PCA降维。PCA类基本不需要调参,一般来说,我们只需要指定我们需要降维到的维度,或者我们希望降维后的主成分的方差和占原始维度所有特征方差和的比例阈值就可以了。原创 2024-04-30 15:52:30 · 912 阅读 · 0 评论 -
零基础入门金融风控-贷款违约预测Task2 数据分析
数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。原创 2024-02-19 13:54:01 · 1566 阅读 · 0 评论 -
欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响?
欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响原创 2023-01-10 18:06:35 · 595 阅读 · 0 评论 -
机器学习实战:信用卡欺诈检测
信用卡欺诈检测原创 2022-12-22 17:45:39 · 439 阅读 · 0 评论 -
Python基于主成分分析的客户信贷评级
大样本的数据集固然提供了丰富的信息,但也在一定程度上增加了问题的复杂性。如果我们分别对每个指标进行分析,往往得到的结论是孤立的,并不能完全利用数据蕴含的信息。但是盲目的去减少我们分析的指标,又会损失很多有用的信息。所以我们需要找到一种合适的方法,一方面可以,另一方面尽量。变量压缩的方法非常多,但百法不离其中,其实最根本的都是(Primary Component Analysis,下简称PCA)。总的来说降维有两种方法,一种是,另一种是PCA就是一种常见的。原创 2022-10-18 20:05:24 · 474 阅读 · 0 评论 -
Apriori 算法-如何进行关联规则挖掘
目录1,关联分析2,三个重要概念3,如何寻找频繁项4,Apriori 算法5,Apriori 算法的实现6,总结在数据分析领域有一个经典的故事,叫做“尿布与啤酒”。据说,在美国西部的一家连锁超市发现,很多男人会在周四购买尿布和啤酒。这样超市就可以将尿布与啤酒放在一起卖,便可以增加销售量。“尿布与啤酒”这个案例就属于数据分析中的关联分析,也就是分析数据集中的内在隐含关系。关联分析可以被用于发掘商品与商品之间的内在关联关系,进而通过商品捆绑销售或者相互推荐,来增加商品销量。关联分析除了可以用于零售原创 2022-06-17 10:47:15 · 1138 阅读 · 0 评论 -
金融风控建模评分卡系列:机器学习特征选择方法
在数据维度”泛滥”成灾的现代,如果不对特征进行筛选直接来建模的话不但会造成模型复杂度的提升,增加计算压力,同时也会因为数据的冗余浪费没有必要的数据费用支出。特别是在金融领域内,因为要求对模型的复杂度和可解释性都有很高的要求,所以在建模前的特征选择是及其重要的。因为每个人在建模时的习惯和方式有差别,所以在选择特征筛选方法的时候也会略有差异,以下会列举使用比较多的方法,你可以根据自己的需求进行使用。需特别说明一下特征选择没有固定的标准和尺度,这一部分需要读者根据自己的实际情况进行设计,但是总的宗旨是”降冗余”。原创 2022-06-17 10:45:20 · 483 阅读 · 0 评论