
数据挖掘
lby0307
这个作者很懒,什么都没留下…
展开
-
IV值
评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。 其中在变量处理的时候涉及IV值和WOE值的计算。基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。 由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的转载 2017-12-25 13:31:47 · 1249 阅读 · 0 评论 -
【python数据挖掘课程】十三.WordCloud词云配置过程及词频分析
前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍 【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化 【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析 【Python数据挖掘课转载 2018-01-07 15:58:41 · 858 阅读 · 1 评论 -
【python数据挖掘课程】十二.Pandas、Matplotlib结合SQL语句对比图分析
这篇文章主要讲述Python常用数据分析包Numpy、Pandas、Matplotlib结合MySQL分析数据,前一篇文章 "【python数据挖掘课程】十一.Pandas、Matplotlib结合SQL语句可视化分析" 讲述了MySQL绘图分析的好处,这篇文字进一步加深难度,对数据集进行了对比分析。 数据分析结合SQL语句的效果真的很好,很多大神看到可能会笑话晚辈,但是如果转载 2018-01-07 15:57:42 · 280 阅读 · 0 评论 -
【python数据挖掘课程】十一.Pandas、Matplotlib结合SQL语句可视化分析
1.MySQL数据库知识首先在"[python爬虫] Selenium爬取内容并存储至MySQL数据库"这篇文章中我讲述了爬虫爬取数据并存储在MySQL中,如下图所示,我的所有博客文章。其中创建的数据库表csdn内容如下所示:[sql] view plain copyCREATE TABLE `csdn转载 2018-01-07 15:56:57 · 394 阅读 · 0 评论 -
【python数据挖掘课程】十.Pandas、Matplotlib、PCA绘图实用代码补充
这篇文章主要是最近整理《数据挖掘与分析》课程中的作品及课件过程中,收集了几段比较好的代码供大家学习。同时,做数据分析到后面,除非是研究算法创新的,否则越来越觉得数据非常重要,才是有价值的东西。后面的课程会慢慢讲解Python应用在Hadoop和Spark中,以及networkx数据科学等知识。如果文章中存在错误或不足之处,还请海涵~希望文章对你有所帮助。一. Pandas获转载 2018-01-07 15:55:58 · 455 阅读 · 0 评论 -
【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据
这篇文章主要介绍三个知识点,也是我《数据挖掘与分析》课程讲课的内容。同时主要参考学生的课程提交作业内容进行讲述,包括: 1.回归模型及基础知识; 2.UCI数据集; 3.回归模型简单数据分析。 前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Python转载 2018-01-07 15:55:03 · 375 阅读 · 0 评论 -
【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐
这篇文章主要介绍三个知识点,也是我《数据挖掘与分析》课程讲课的内容。 1.关联规则挖掘概念及实现过程; 2.Apriori算法挖掘频繁项集; 3.Python实现关联规则挖掘及置信度、支持度计算。 前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Pyth转载 2018-01-07 15:54:25 · 2942 阅读 · 0 评论 -
【Python数据挖掘课程】七.PCA降维操作及subplot子图绘制
这篇文章主要介绍四个知识点,也是我那节课讲课的内容。 1.PCA降维操作; 2.Python中Sklearn的PCA扩展包; 3.Matplotlib的subplot函数绘制子图; 4.通过Kmeans对糖尿病数据集进行聚类,并绘制子图。 前文推荐: 【Python数据挖掘课程】一转载 2018-01-07 15:49:07 · 575 阅读 · 0 评论 -
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy、Pandas和Matplotlib三个包。目录: 一.Python常用扩展包 二.Numpy科学计算包 三.Pandas数据分析包 四.Matplotlib绘图包转载 2018-01-07 15:37:19 · 965 阅读 · 0 评论 -
【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例
今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容: 1.机器学习常用数据集介绍 2.什么是线性回顾 3.LinearRegression使用方法 4.线性回归判断糖尿病 前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Py转载 2018-01-07 15:14:23 · 1670 阅读 · 1 评论 -
【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
今天主要讲述的内容是关于决策树的知识,主要包括以下内容: 1.分类及决策树算法介绍 2.鸢尾花卉数据集介绍 3.决策树实现鸢尾数据集分析 前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍转载 2018-01-07 10:06:39 · 2637 阅读 · 0 评论 -
【python数据挖掘课程】十四.Scipy调用curve_fit实现曲线拟合
前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍 【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化 【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析 【Python数据挖掘课转载 2018-01-07 16:00:17 · 3888 阅读 · 1 评论 -
【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
这篇文章直接给出上次关于Kmeans聚类的篮球远动员数据分析案例,同时介绍这次作业同学们完成的图例,最后介绍Matplotlib包绘图的优化知识。 前文推荐: 【Python数据挖掘课程】一.安装Python及爬虫入门介绍 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍 希望这篇文章对你有所帮助,尤转载 2018-01-06 10:20:25 · 1253 阅读 · 0 评论 -
【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
这次课程主要讲述一个关于Kmeans聚类的数据分析案例,通过这个案例让同学们简单了解大数据分析的基本流程,以及使用Python实现相关的聚类分析。 主要内容包括: 1.Anaconda软件的安装过程及简单配置 2.聚类及Kmeans算法介绍 3.案例分析:Kmeans实现运动员位置聚集 前文推荐:【Pytho转载 2018-01-06 10:19:16 · 894 阅读 · 0 评论 -
【Python数据挖掘课程】一.安装Python及爬虫入门介绍
这门课程围绕下图所示的内容进行展开及实战。 课程资源:一. 大数据及数据挖掘基础 第一部分主要简单介绍三个问题(觉得无聊的直接调至第二部分): 1、什么是大数据? 2、什么是数据挖掘? 3、大数据和数据挖掘的区别? 由于前面几节课老师普及了转载 2018-01-06 09:51:00 · 454 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入转载 2017-12-25 13:52:41 · 334 阅读 · 0 评论 -
缺失值处理方法
本文参考了多篇优快云、知乎以及百度的文章,如果侵犯了您的权益,请及时联系,这是自己写的第一篇博客,有很多不足之处,请原谅。文章将常见的自己能理解的一些缺失值的处理方法以及方法的优缺点做了简单介绍。其中,多重插补、EM算法对缺失值的处理尚未掌握,因此并未放上来。一、数值缺失机制1.完全随机缺失(MCAR):缺失数据与该变量的真实值无关,与其他变量的数值也无关。 举例:一位老师抱着批改完的卷子走在路...转载 2018-02-25 18:24:15 · 3192 阅读 · 0 评论