
数据挖掘实战项目
文章平均质量分 95
Python数据科学
东哥起飞,《100天风控专家》原创作者
展开
-
一文读懂异常检测 LOF 算法(Python代码)
大家好,我是东哥。本篇介绍一个经典的异常检测算法:局部离群因子(Local Outlier Factor),简称LOF算法。一、背景Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。这些方法都有一些不完美的地方:基于统计的方法原创 2021-12-21 23:55:18 · 5598 阅读 · 1 评论 -
一文读懂层次聚类(Python代码)
大家好,我是东哥。本篇想和大家介绍下层次聚类,先通过一个简单的例子介绍它的基本理论,然后再用一个实战案例Python代码实现聚类效果。首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。层次聚类和K-means有什么不同?K-means 工作原理可以简要概述为:决定簇数(k)从数据中随机选取 k 个点作为质心将所原创 2021-11-21 21:24:54 · 14803 阅读 · 3 评论 -
数据挖掘实战:个人信贷违约预测
大家好,我是东哥。本次分享一个数据挖掘实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助,本文首发于公众号:Python数据科学,作者云朵君。一、个人征信预测模型1、项目背景当今社会,个人信贷业务发展迅速,但同时也会暴露较高的信用风险。信息不对称在金融贷款领域突出,表现在过去时期借款一方对自身的财务状况、还款能力及还款意愿有着较为全面的掌握,而金融机构不能全面获知借款方的风险水平,或在相关信息的掌握上具有明显的滞后性。这种信息劣势,使得金融机构在贷款过程中可能由于风险评估与实原创 2021-05-26 15:27:54 · 4540 阅读 · 2 评论 -
入门Python数据分析最好的实战项目(二)建模篇
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析上一篇和大家分享了一个入门数据分析的一个小项目 北京二手房房价分析,链接如下:数据分析实战—北京二手房房价分析文章在sf发布之后看到有不少感兴趣的朋友给我点了赞,感谢大家的支持了。本篇将继续上一篇数据分析之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目。结合两篇文章通过数据分析和挖掘的方...原创 2018-12-25 16:24:33 · 9266 阅读 · 8 评论 -
入门Python数据分析最好的实战项目(一)分析篇
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析非经作者允许,禁止任何商业转载。目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。数据源:博主通过爬虫采集的链家全网北京二手房数据(公众号后台回复 二手房数据 便可获取)。目录数据初探数据可视化分析总结数据初探首先导入要使用...原创 2018-12-24 14:51:15 · 20371 阅读 · 18 评论