
DataMining
文章平均质量分 74
古韦
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FP-Tree算法
Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk需要一次数据库扫描。这个算转载 2014-07-29 10:06:00 · 1021 阅读 · 0 评论 -
数据预处理
对于数据分析而言,什么是核心?答案显而易见---数据。但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以有必要对数据进行预处理,接着就来讨论下数据预处理技术。 通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。 数据清理又包含:遗漏值处理、噪音数据处转载 2014-09-03 16:20:41 · 1085 阅读 · 0 评论 -
dbscan算法
dbscan算法是一种基于密度的聚类算法。该算法的目的在于过滤低密度区域,发现稠密度样本点,跟传统的基于层次聚类和划分聚类的凸形聚类簇不同,该算法可以发现任意形状的聚类簇,与传统的算法相比它有如下优点: 与K-means比较起来,你不必输入你要划分的聚类个数; 聚类簇的形状没有bias; 可以在需要时输入过滤噪声的参数;原创 2014-07-31 18:43:52 · 2907 阅读 · 0 评论 -
K-Means聚类算法详解
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去(3)第三步是计算每个聚类中所原创 2014-07-31 08:54:02 · 28412 阅读 · 0 评论 -
K中心聚类法
算法步骤1 随机选择k个点作为“中心点”2 计算剩余的点到这k个中心点的距离,每个点被分配到最近的中心点组成聚簇3 随机选择一个非中心点Or,用它代替某个现有的中心点Oj,计算这个代换的总代价S4 如果S5 重复2,直至中心点集合不发生变化PAM使用离差平方和来计算成本S(类似于ward距离的计算)R语言的cluster包实现了PAMK中心法的优点:对于原创 2014-08-29 10:53:46 · 4450 阅读 · 0 评论 -
决策树之CART算法
一、决策树的类型 在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。分类回归树(CART,Classification And Regr转载 2014-08-12 10:32:38 · 2148 阅读 · 0 评论 -
决策树之ID3、C4.5、C5.0算法
决策树之ID3,说一个例子,就会明白,拿 Tom M .mitchen 的《Machine Learing》第三章中的例子。我们先解释一下这张表,表中有14条实例数据,就是我们的训练数据,其中 Outlook,Temperature,Humidity ,Wind 称作条件属性,PlayTennis 称作是决策属性(标签)。每一个属性都有各自的值记做:Value(Outl转载 2014-08-12 09:02:10 · 7107 阅读 · 0 评论 -
支持向量机(SVM)
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在这一节我们主要是对支持向量机进行系统的回顾,以及通过Python来实现。由于内容很多,所以这里分成三篇博文。第一篇讲SV转载 2014-08-09 09:20:13 · 915 阅读 · 0 评论 -
Logistic regression(逻辑斯蒂)回归分析
Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘) 那么它究竟是什么转载 2014-08-07 14:48:38 · 2789 阅读 · 1 评论 -
一元线性回归分析及java实现
一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系。通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想、方法和应用。 一、问题的提出 例2-1-1 为了研究氮含量对铁合金溶液初生奥氏体析出温度的影响,测定了不同氮含量时铁合金溶液初生奥氏体析出温度,得到表2-1-1给出的5组数据。表2-1-1转载 2014-08-07 11:02:28 · 6553 阅读 · 0 评论 -
BIRCH算法(Java实现)
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)天生就是为处理超大规模(至少要让你的内存容不下)的数据集而设计的,它可以在任何给定的内存下运行。关于BIRCH的更多特点先不介绍,我先讲一下算法的完整实现细节,对算法的实现过程搞清楚后再去看别人对该算法的评价才会感受深刻。你不需要具备B树的相关知识,我接下来会讲转载 2014-08-01 10:34:16 · 1205 阅读 · 0 评论 -
层次聚类之AGNES算法和DIANA算法
层次聚类的基本概念 层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的:该方法是自底向上的方法,初始每个对象看做一个簇,每一步合并最相近的簇,最终形成一个簇。分类的:该方法是自顶向下的方法,从包含的所有点的簇开始,每一步分裂一个簇,知道仅剩下单点的簇。本文主要关注凝聚的层次聚类方法。2 簇之间的邻近性在凝聚的层次聚类方法中,需要转载 2014-08-01 09:42:18 · 13357 阅读 · 4 评论 -
二分K均值(bisecting k-means)算法
算法主要分为以下步骤,一开始是把所有数据初始化为一个cluster,第二步从所有cluster 中选其中一个出来用基本k-means算法(k设为2)再划分成两个cluster(初始时只有一个cluster).然后是一直重复第二步的划分(选一个cluster划成两个)直到得到k个cluster算法停止。 从算法可以知道每次划分都是用k-means划分,可是问题是从已有的cluster中应转载 2014-07-31 10:09:03 · 3997 阅读 · 1 评论 -
二元线性回归及java实现
/** * */package com.augurit.eddy.math; /** * @authorAdministrator * */public class SPT { /** * 一元线性回归分析 * * @paramx[n] * 存放自变量x的n转载 2014-08-07 14:14:46 · 3773 阅读 · 0 评论 -
欧式距离和马氏距离的区别
二维空间的公式0ρ = sqrt( (x1-x2)^2+(y1-y2)^2 ) |x| = √( x2 + y2 )三维空间的公式0ρ = √( (x1-x2)2+(y1-y2)2+(z1-z2)2 ) |x| = √( x2 + y2 + z2 )n维空间的公式n维欧氏空间是一个点集,它的每个点 X 或向量 x 可以表示为 (x[1],x[2],…,x[n转载 2014-07-30 16:33:12 · 10140 阅读 · 0 评论 -
贝叶斯分类算法
贝叶斯分类是一种统计学分类方法,它利用已知样本的分类统计情况预测未知样本的分类。p(H|X)=p(X|H)p(H)/p(X)朴素贝叶斯分类工作过程:1)每个数据样本用一个n维特征向量X={x1,x2,......xn}表示,分别描述对n个属性A1,A2.....An样本的n个度量。2)假定有m个类C1,C2....Cm。给定一个未知的数据样本X,分类法将预测X属于具有最高后验概转载 2014-07-30 15:18:36 · 1531 阅读 · 0 评论 -
SSE,MSE,RMSE,R-square详解
数据挖掘经常遇到下面几个名词:SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square转载 2014-07-31 10:10:18 · 5193 阅读 · 0 评论 -
K近邻算法(knn)及R实现
K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练原创 2014-07-30 15:55:22 · 5830 阅读 · 0 评论