
数据挖掘
carlwu
这个作者很懒,什么都没留下…
展开
-
RapidMiner缺失数据处理——去掉数据大量缺失的变量
最近做数据挖掘,发现RapidMiner是一款数据清洗、处理和转换的好工具,尤其在数据量不大的情况下。和R语言相比,RapidMiner在数据处理方面要简单直观得多。虽然RapidMiner的功能可能不如R强大。另外,我们也可以在RapidMiner中可以直接利用Java/Groovy来编写程序,对数据进行处理和转换。现在以 RapidMiner6.0为例,来说明一下如何写一段小程序,去掉那些数据缺失量大于80%的变量。因为数据缺失量超过80%,我们很难补全它们。原创 2016-12-21 22:51:31 · 8069 阅读 · 0 评论 -
利用梯度下降法实现简单的线性回归
利用梯度下降算法实现简单的线性回归最近做了好多个数据挖掘的小项目,使用并比较了N多算法,了解了很多机器学习的工具,如R语言、Spark机器学习库、Python、Tensorflow和RapidMiner等等。但是我感觉到自己没能深入下去,充其量也只是把别人的工具拿来玩玩而已。对算法本身的优劣及适用范围不甚了了,更谈不上改进优化算法了。本着甘当小学生的精神,我最近在网上参加了机器学习牛人Andrew原创 2017-07-11 13:07:23 · 8780 阅读 · 4 评论 -
用R语言的MICE包对缺失数据进行多重插补(一)-- 缺失数据分析
在进行数据分析时,缺失数据是一个令人头痛的问题。数据缺失的原因五花八门,修补这些缺失数据的方法也是因情况而异。插补法(Imputation)是对一种对缺失数据进行调整的方法。该方法用多个可能的值来填充一个缺失的数据项,从而反映了缺失数据的不确定性。本例以R语言的MICE包为例,说明如何使用多重插补方法对缺失值进行估计。原文地址参见https://datascienceplus.com/imputin翻译 2017-07-21 14:20:28 · 41516 阅读 · 6 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距转载 2017-07-28 14:53:06 · 387 阅读 · 0 评论 -
用Python的statsmodels包做前向逐步回归
Python的statsmodels包含了一些R风格的统计模型和工具。在内部实现上,statsmodels使用patsy包将数据转化为矩阵并建立线性模型,具体信息参见pasty主页http://patsy.readthedocs.io/en/latest/overview.html。但是,Python的statsmodels工具中没有向前逐步回归算法。逐步回归的基本思想是将变量逐个引入模型,每引入...原创 2018-04-20 13:58:11 · 18665 阅读 · 5 评论 -
机器学习和数据科学从业者必读的10本免费英文书
本文编译自https://www.kdnuggets.com/2018/05/10-more-free-must-read-books-for-machine-learning-and-data-science.html。夏天本该是放松的季节,但Matthew Mayo给我们推荐了10本免费的机器学习和数据科学书籍,以打发无聊的长夏。我们先来看下这10本必读免费书的封面:1、Python数据科学手...翻译 2018-06-18 20:46:20 · 4033 阅读 · 0 评论