
数据挖掘算法
jiabiao1602
目前就职于世界百强企业!已经从事数据分析工作10年以上。曾经从事过咨询、电商、电购、电力、互联网等行业,了解不同领域的数据特点,目前主要用R语言做大数据分析和建模、数据可视化研究工作。撰写书籍《R语言与数据挖掘》、《R语言游戏数据分析与挖掘》等书籍
展开
-
聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut
转自:http://blog.youkuaiyun.com/abcjennifer/article/details/8170687聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral clustering,Ncut五个算法在聚类中的应用。转载 2015-02-12 16:10:40 · 1128 阅读 · 0 评论 -
白话机器学习算法(十七)熵,条件熵
http://blog.youkuaiyun.com/wangxin110000/article/details/23541427在信息论中,要对符号进行编码,一个符号的熵就是要表示这个符号所需要的最少二进制数位数;这是一个极限;这也是信息压缩的基础;条件熵,当两个符号之间存在某种关系,或者两个随机变量不互相独立的时候,对于A,B两个随机事件,非独立,知道A的情况,B的不确定性减少;转载 2015-02-13 10:16:49 · 728 阅读 · 0 评论 -
白话机器学习算法(二十)梯度下降算法
http://blog.youkuaiyun.com/wangxin110000/article/details/37809321梯度下降算法是最优化中很常用的一个算法,他能找到一个局部最优解,如果目标函数是凸函数,那么他能找到全局的最优解两个特性可以解释梯度下降法:1:走一步看一步2:每一步的“利益”最大化(一)走一步看一步学过高数转载 2015-02-13 10:19:03 · 623 阅读 · 0 评论 -
白话机器学习算法(二)KNN
http://blog.youkuaiyun.com/wangxin110000/article/details/22092109KNN是一种分类算法,在现实生活中,我们看一个人怎么样,可以看他的朋友怎么样,至少说这样推断的可信度比较高;KNN就是这种思想。1:)初始化输入为有标签样本;2:)当我们得到一个新样本的时候,我们就看这个新样本的半径为R的周围,各种有标签样本的比转载 2015-02-13 09:49:39 · 557 阅读 · 0 评论 -
白话机器学习算法(八)MDS
http://blog.youkuaiyun.com/wangxin110000/article/details/22275897MDS多维尺度分析,实际应用中我们可以得到两个对象的差异度,这个差异度是个人为定义的概念,比如说可以定义一个差异函数,非常灵活;假设现在我们有N个对象,我们可以定义N方个距离,可以类似于邻接矩阵的样子,来表示两两之间的差异度;现在为了可视化,转载 2015-02-13 09:54:56 · 612 阅读 · 0 评论 -
白话机器学习算法(十)感知机
http://blog.youkuaiyun.com/wangxin110000/article/details/22401133感知机是神经网络里最简单的一种算法,由误分类驱动。当正确分类时,权值矩阵不变,错误分类时候,用梯度下降法不断极小化目标函数,说得直接点,就是将权值向量的“稍微”指向误分类点。这个方法背后的数学原理,就是梯度下降法。总结:只要线性可转载 2015-02-13 10:03:24 · 473 阅读 · 0 评论 -
白话机器学习算法(十一) GMM
http://blog.youkuaiyun.com/wangxin110000/article/details/22524075GMM就是高斯混合模型,用GMM去聚类的话,就变成了一个似然估计的问题,估计的参数就是选取每个高斯部件的概率,每个高斯各自的均值方差;我们可以把实际数据看做由这个GMM随机数生成器产生的,N个数据就是N个观测值,数据之间独立;根据数据找出这个模型的参转载 2015-02-13 10:07:07 · 778 阅读 · 0 评论 -
白话机器学习算法(十四)数据降维
http://blog.youkuaiyun.com/wangxin110000/article/details/22384837数据降维有很多算法,不同算法的原理,目的是不一样的,选择不同的降维算法,取决于1:实际数据的大概分布,即我们最当前数据的一个假定,当实际数据与我们的假定模型比较接近时候,我们才可以用相应的算法;2:我们降维的目的,我们希望在降维以后,保留什么信息转载 2015-02-13 10:11:11 · 846 阅读 · 0 评论 -
数据挖掘(一)A-Priori
http://blog.youkuaiyun.com/wangxin110000/article/details/22691871数据挖掘需要挖掘事物之间的关联性,A-Priori是一个购物篮模型,实质上是一个教你快速统计频繁项集的方法,其根据频繁项集的单调性,来减少扫描的次数比如我有很多购物篮,每个篮子里有若干物品,如{青菜,黄瓜}{黄瓜,蘑菇,冬笋}{面条,酱油}{苗条,青菜}转载 2015-02-13 10:13:10 · 580 阅读 · 0 评论 -
白话机器学习算法(十八)决策树
http://blog.youkuaiyun.com/wangxin110000/article/details/23655761前面说了条件熵,对于AB两个变量,我们知道了B便可以缩小A的范围,B能给我们减少A的不确定性;决策树就是这样一种规则,当我知道了向量的所有属性的时候,他的类别就确定了,每多知道一个属性,这个向量的所属范围便缩小一部分。“决策树学习本质上是从训练数据集中归转载 2015-02-13 10:17:34 · 601 阅读 · 0 评论 -
白话机器学习算法(二十一)logistic回归
http://blog.youkuaiyun.com/wangxin110000/article/details/38112519我们知道最简单的线性回归 y=f(x)=wx+b,表示随着x的变化,y会随着变化,而且是确定的,即一对一的映射,x到y的映射现在有一组,我们实际上不好确定的说,男生就一定长胡须,女生就一定不长胡须,最好的办法是,知道了性别是男生后,我们可以认为,长胡转载 2015-02-13 10:19:39 · 743 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
原文地址:http://blog.youkuaiyun.com/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直转载 2017-09-06 17:53:20 · 4587 阅读 · 4 评论 -
白话机器学习算法(十二)聚类,分类的一些总结
http://blog.youkuaiyun.com/wangxin110000/article/details/22529629所有的聚类问题,都可以简化成1:找聚类中心的问题;2:距离表示的问题,不同的聚类要求需要有不一样的距离定义;3:数据表示的问题,比如数据降维,特征选择等等。而所有的分类问题1:寻找最优判断准则的问题;2:数据最优表转载 2015-02-13 10:08:14 · 610 阅读 · 0 评论 -
白话机器学习算法(九)朴素贝叶斯
http://blog.youkuaiyun.com/wangxin110000/article/details/22301983朴素贝叶斯,确实很朴素,原理也很简单,但是用途很厉害;很多涉及概率的机器学习算法都要用到这些东西:最大似然估计(MLE),贝叶斯估计(最大后验MAP),EM(也是最大似然估计,只是方法不同),最大熵;先说点废话,再写点公式吧:最大似然估计:我取什么样的参转载 2015-02-13 09:57:47 · 644 阅读 · 0 评论 -
白话机器学习算法(七)LDA
http://blog.youkuaiyun.com/wangxin110000/article/details/22201777LDA也是一种线性变换,其整个证明过程与PCA非常相似,找到目标函数,利用特征值,但是其跟PCA的目标是不同的,PCA目的是在新坐标系中方差最大,LDA则是在新坐标系中,类内方差尽量小,类间距离尽量大,并以这两个指标定义一个目标函数,通过最大化这个目标函数然后得转载 2015-02-13 09:54:06 · 605 阅读 · 0 评论 -
白话机器学习算法(三)基于密度的聚类 DBSCAN
http://blog.youkuaiyun.com/wangxin110000/article/details/22092655DBSCAN是一种基于密度的聚类算法,能找到被低密度区域分离的高密度区域我们先聊聊港台电影里有关黑老大的片段,我们先定义三种人:1) :黑老大:既然能称为黑老大,那周围一定有一帮人,这群人中有的单纯就是马仔,有的人则可能是另一个帮派的黑老大;2)转载 2015-02-13 09:50:36 · 709 阅读 · 0 评论 -
白话机器学习算法(六) PCA
http://blog.youkuaiyun.com/wangxin110000/article/details/22175041PCA是一种线性映射,目的是为了降维。在机器学习算法中,映射可以降维也可以升高维度,看最终的目的是什么,如果为了简化输入特征,可以降维,如果数据在低维线性不可分,可以考虑将数据映射到高维空间中,那样可能就线性可分了,这就是核方法。PCA属于前者;转载 2015-02-13 09:52:56 · 668 阅读 · 0 评论 -
白话机器学习算法(十三)LVQ
http://blog.youkuaiyun.com/wangxin110000/article/details/22581279LVQ网络(Learning Vector Quantization)是前面说的SOM的一个变种,但是学习方法仍然是Kohonen的竞争方法,说他是变种,因为这个算法是一种有监督的方法。单看他的名字就知道,这是一种向量量化手段,如果给我K类数据,每类数据转载 2015-02-13 10:09:26 · 1476 阅读 · 0 评论 -
白话机器学习算法(十一) EM(附三个硬币模型代码)
http://blog.youkuaiyun.com/wangxin110000/article/details/22404983EM有很多公式推导,这里还是先说下EM思想,前面说过EM是最大似然估计的思路,但是他的方法是用 参数与数据 去估计 参数,直到估计出的参数基本正确;很多初学的对EM感到困惑,常常被一堆公式所迷惑,这样不利于深入理解EM,在此我也不想用一堆公式去推倒这个思想的数转载 2015-02-13 10:12:19 · 1725 阅读 · 0 评论 -
白话机器学习算法(十五)文档与图片的特征提取(学习笔记)
互联网中大量的分类目标是文档,或者图片,如何才能提取这两者的特征?对于文档,用的最多的是TF—IDF(词频-逆文档频率),我们可以用这个来找到每篇文章的关键词;当有很多文档时候,我们可以利用这些文档的关键词组成一个并集,每个文档就可以形成一个向量,向量的坐标是这个并集,值是对应的这个词出现在这个文档中的次数;最后利用两个文章对应的向量之间的余弦相似性来独立两篇文章的相似性;转载 2015-02-13 10:14:59 · 625 阅读 · 0 评论 -
白话机器学习算法(十六)HMM 隐马尔科夫链
http://blog.youkuaiyun.com/wangxin110000/article/details/22955885隐马尔科夫链主要是两部分:第一部分:与传统马尔科夫过程一样,都是一个状态转移矩阵,假设是:当前状态只与前一状态有关;第二部分:在某一状态下会有一个对应的观测模型,不同状态有不同的观测模型;这点与GMM都是一种两级跳的思想,只是GMM选定的高斯分布转载 2015-02-13 10:15:35 · 1357 阅读 · 0 评论 -
白话机器学习算法(十九)CART算法
http://blog.youkuaiyun.com/wangxin110000/article/details/23759341CART (classification and regression tree)分类与回归树算法前面说的决策树就是分类树,分类树是一种对空间的划分方法,将输入空间(特征空间)按照属性的取值范围划分为若干个不相交的区域;这里的cart是一种二叉树转载 2015-02-13 10:18:15 · 581 阅读 · 0 评论 -
白话机器学习算法(二十二)Adaboost
http://blog.youkuaiyun.com/wangxin110000/article/details/38900437Adaboost是一种弱分类器转化为强分类器的算法,其对于每个弱分类器赋予一个权重,最终将这些带权弱分类器线性组合成一个强分类器。问题就转化为如何获得权值?基本的步骤如下Step1:为每个样本赋予一个权值Step2:利用训练数据第一个弱分转载 2015-02-13 10:20:12 · 662 阅读 · 0 评论 -
白话机器学习算法(一)分层聚类
http://blog.youkuaiyun.com/wangxin110000/article/details/22091391分层聚类:1):对于若干输入对象,开始时候每个对象都是一类;2):你可以想象一类就是一块磁铁,每次只允许一对磁铁吸在一起,要求是这对磁铁的距离所有距离里最近的,两个磁铁就变成一块大磁铁,他们归为一类(然后更新下这个大磁铁的中心,以便以后算距离),转载 2015-02-13 09:48:53 · 576 阅读 · 0 评论 -
白话机器学习算法(四)K-means
http://blog.youkuaiyun.com/wangxin110000/article/details/22094675K-means算法是一种无监督聚类算法,还是打个比方吧:1):现在房间里有一群人,各自随机站在房间里,这时候有个上帝,随机挑选了房间里K个人当K个小组的领导;2):选完领导,每个人开始站队了,找离自己最近的那个领导,表示自己是那一队的;3):站完转载 2015-02-13 09:51:18 · 558 阅读 · 0 评论