
数据挖掘
文章平均质量分 69
troubleisafriend
这个作者很懒,什么都没留下…
展开
-
在R中调用关联规则——Apriori算法
library(arules) #加载arules程序包 data(Groceries) #调用数据文件 frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10)) #求频繁项集 inspect(frequentsets[1:10]) #察看求得的频繁项集 inspect(sort(f原创 2015-08-26 19:01:16 · 2359 阅读 · 0 评论 -
机器学习基本算法
1Logistic回归:优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。类别:分类算法。适用场景:解决二分类问题。简述:Logistic回归算法基于Sigmoid函数,或者说Sigmoid就是逻辑回归函数。Sigmoid函数定义如下:1/(1+exp(-z))。函数值域范围(0,1)。可以用来做分类器。Sigmoid函数原创 2015-08-26 19:02:58 · 924 阅读 · 0 评论 -
机器学习基础概念
1.基础概念:(1)10折交叉验证:英文名是10-foldcross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。(2)原创 2015-08-26 19:02:55 · 513 阅读 · 0 评论 -
数据挖掘十大经典算法
(1) C4.5机器学习算法中的一个分类决策树算法。ID3的改进算法,决策树构造方法就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5相比于ID3改进的地方有:1、用信息增益率来选择属性区别就在于一个是信息增益,一个是信息增益率。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则),也就是熵的变化值原创 2015-08-26 19:00:57 · 673 阅读 · 0 评论 -
分类算法——决策树(1)
决策树归纳是从类标记的训练元组学习决策树。决策树是一种类似于流程图的结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点(或终节点)存放一个类标号。树的最顶层节点是根节点,一颗典型的决策树如下图所示:1 决策树归纳典型的算法有ID3 (迭代的二分器)、C4.5、 CART(分类与回归树),三种算法均采用贪心(即非回溯的)方法,其原创 2015-08-26 19:02:35 · 1360 阅读 · 0 评论 -
分类算法——决策树算法及其R实现
决策树定义以鸢尾花为例子来说明: 观察上图,判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于2.4cm的呢?可以通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)用图形来形象的展示上述思考过程便得到了下图一棵决策树:这种从数据产生决策树的机原创 2015-08-26 19:02:26 · 1661 阅读 · 0 评论 -
贝叶斯网络
贝叶斯方法先验分布 +样本信息后验分布 贝叶斯定理:应用:谷歌拼写检查,在已知错误拼写的情况下,在若干个备选方案中,找出可能性最大的正确拼写。 贝叶斯网络原文:http://blog.youkuaiyun.com/v_july_v/article/details/40984699?utm_source=tuicool原创 2015-08-26 19:00:52 · 631 阅读 · 0 评论 -
分类算法——K近邻算法及其R实现
原理:已知样本集中每一个数据与所属分类的对应关系,输入没有标签的新数据后,将新数据与训练集的数据对应特征进行比较,找出“距离”最近的k(通常k)数据,选择这k个数据中出现最多的分类作为新数据的分类。算法描述:(1)计算已知类别数据及中的点与当前点的距离;(2)按距离递增次序排序(3)选取与当前点距离最小的k个点(4)确定前K个点所在类别出现的频率(5)返回频率最高的类别作为当前类原创 2015-08-26 19:02:24 · 9227 阅读 · 0 评论 -
数据挖掘之数据预处理
为什么要进行数据预处理?现实情况中,你的数据可能是不完整的(缺少属性值或某些感兴趣的属性或仅包含聚类数据)、含噪声的(包含错误或存在偏离期望的离群值)、并且是不一致的。数据清理:填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性数据集成:当数据来自多个数据源时,而同一个属性在不同数据源不同,合成时存在冗余数据规约:数据集的简化描述性数据汇总 1 度量数据的中心趋势均值原创 2015-08-26 19:00:33 · 1018 阅读 · 0 评论 -
Apriori算法
算法简介Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提原创 2015-08-26 19:01:14 · 800 阅读 · 0 评论 -
各种分类算法比较
1 KNN算法原理:已知样本集中每一个数据与所属分类的对应关系,输入没有标签的新数据后,将新数据与训练集的数据对应特征进行比较,找出“距离”最近的k(通常k<20)数据,选择这k个数据中出现最多的分类作为新数据的分类。 算法描述: (1) 计算已知类别数据及中的点与当前点的距离; (2) 按距离递增次序排序 (3) 选取与当前点距离最小的k个点 (4) 确定前K个点所在类别出现的频原创 2015-09-03 20:23:19 · 3717 阅读 · 0 评论