
Data Mining
XiaoGuang-Xu
主要从事Hadoop Spark Flink,兴趣爱好:数据挖掘和机器学方向
展开
-
PageRank算法
1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRan转载 2015-01-01 14:49:38 · 536 阅读 · 0 评论 -
数据挖掘10大算法(6)--K近邻算法
数据挖掘10大算法(6)--K近邻算法http://blog.youkuaiyun.com/u011067360/article/details/23941577k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。一、基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样转载 2015-06-09 10:35:32 · 671 阅读 · 0 评论 -
决策树
策树法(Decision Tree)[编辑]什么是决策树? 决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。 决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。 选择分割的方法有好几种,但是目的都转载 2015-06-09 10:45:41 · 1067 阅读 · 0 评论 -
文本挖掘学习资料
http://blog.youkuaiyun.com/yangliuy/article/details/8447886数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(下)数据挖掘-基于Kmeans算法、MBSAS算法及DBSCAN算转载 2015-08-05 17:38:57 · 837 阅读 · 0 评论 -
数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法
数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法原文URL:http://www.cnblogs.com/fengfenggirl/p/associate_apriori.html#2752667 我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。今天讲的是关联规则挖掘的最基本的知识。 关联规则挖掘在电商、零售、大气物理、转载 2016-09-14 12:50:02 · 1166 阅读 · 0 评论 -
18大经典数据挖掘算法小结
18大经典数据挖掘算法小结原文地址URL: http://blog.youkuaiyun.com/androidlushangderen/article/details/43964589本文所有涉及到的数据挖掘代码的都放在了我的github上了。地址链接: https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的转载 2016-09-25 14:10:22 · 663 阅读 · 0 评论 -
数据挖掘十大经典算法(详解)
数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整转载 2017-05-25 09:25:54 · 1864 阅读 · 0 评论 -
逻辑回归
逻辑回归 原文: http://blog.youkuaiyun.com/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中转载 2017-06-09 10:50:07 · 541 阅读 · 0 评论 -
SVM算法原理
SVM算法原理原文:http://blog.youkuaiyun.com/u012581541/article/details/51181041简介支持向量机(support vector machines)是一个二分类的分类模型(或者叫做分类器)。如图:它分类的思想是,给定给一个包含正例和反例的样本集合,svm的目的是寻找一个超平面来对样本根据正例转载 2017-06-15 14:26:13 · 943 阅读 · 0 评论 -
数据挖掘系列(2)--关联规则FpGrowth算法
数据挖掘系列(2)--关联规则FpGrowth算法上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。转载 2017-06-15 15:56:12 · 717 阅读 · 0 评论 -
数据挖掘系列(3)--关联规则评价
数据挖掘系列(3)--关联规则评价 前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则 看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录,其中购买转载 2017-06-15 16:21:40 · 692 阅读 · 0 评论 -
数据挖掘系列(4)决策树分类算法
从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 这篇先介绍分类问题的一些基本知识,然后主要讲述决策树算法的原理、实现,最后利用决策树算法做一个泰坦尼克号船员生存预测应用。一、分类基本介绍 物以类聚,人以群分,分类问题只古以来就出现我们的生活转载 2017-06-15 16:27:34 · 1021 阅读 · 0 评论 -
数据挖掘10大算法(3)——PageRank
数据挖掘10大算法(1)——PageRank1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文转载 2015-06-08 14:53:08 · 558 阅读 · 0 评论 -
数据挖掘算法以及其实现zz
数据挖掘算法以及其实现zz实验一 分类技术及其应用实习要求: 基于线性回归模型拟合一个班学生的学习成绩,建立预测模型。数据可由自己建立100个学生的学习成绩。1) 算法思想:最小二乘法设经验方程是y=F(x),方程中含有一些待定系数an,给出真实值{(xi,yi)|i=1,2,...n},将这些x,y值 代入方程然后作差,可以描述误差:yi-F(转载 2015-06-09 11:48:02 · 677 阅读 · 0 评论 -
数据挖掘10大经典算法思维导图
机器学习&数据挖掘笔记http://www.cnblogs.com/tornadomeet/category/489160.html转载 2015-04-24 20:02:01 · 3614 阅读 · 0 评论 -
海量数据处理算法—Bloom Filter
海量数据处理算法—Bloom Filterhttp://blog.youkuaiyun.com/hguisu/article/details/7866173转载 2015-01-01 14:54:37 · 465 阅读 · 0 评论 -
PeopleRank从社交网络中发现个体价值
PeopleRank从社交网络中发现个体价值转载请注明出处:http://blog.fens.me/hadoop-social-peoplerank/前言如果说Google改变了互联网,那么社交网络就改变人们的生活方式。通过社交网络,我们每个个体,都是成为了网络的中心。我们的生活半径,被无限放大,通过6个朋友关系,就可以认识世界上任何一个人。未来的互联网将是属于我们每一转载 2015-01-01 12:15:25 · 1123 阅读 · 0 评论 -
PageRank算法并行实现
PageRank算法并行实现 转载请注明出处:http://blog.fens.me/algorithm-pagerank-mapreduce/前言Google通过PageRank算法模型,实现了对全互联网网页的打分。但对于海量数据的处理,在单机下是不可能实现,所以如何将PageRank并行计算,将是本文的重点。本文将继续上一篇文章 PageRank算法R语言实现,转载 2015-01-01 12:12:52 · 972 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法http://blog.youkuaiyun.com/clouderyu/article/details/6761915对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础,如果要实现文本的自动聚类,首先按照本系列5中所介绍的,对文章进行分词,然后计算得出文章的术语向量表示,即求文章中每个不同的单词以其所对应的转载 2015-05-22 18:34:49 · 677 阅读 · 0 评论 -
深入探讨PageRank
深入探讨PageRank(一):PageRank算法原理入门http://blog.youkuaiyun.com/monkey_d_meng/article/details/6554518深入探讨PageRank(二):PageRank原理剖析http://blog.youkuaiyun.com/monkey_d_meng/article/details/6556295深入探讨转载 2015-06-08 14:58:12 · 776 阅读 · 0 评论 -
PageRank算法R语言实现
PageRank算法R语言实现算法为王系列文章,涵盖了计算机算法,数据挖掘(机器学习)算法,统计算法,金融算法等的多种跨学科算法组合。在大数据时代的背景下,算法已经成为了金字塔顶的明星。一个好的算法可以创造一个伟大帝国,就像Google。算法为王的时代正式到来….关于作者:张丹(Conan), 程序员Java,R,PHP,Javascriptweibo:@C转载 2015-06-08 09:27:27 · 911 阅读 · 0 评论 -
数据挖掘10大算法(6)-K最近邻(KNN)算法的实现(java和python版)
数据挖掘-K最近邻(KNN)算法的实现(java和python版)KNN算法基础思想前面文章可以参考,这里主要讲解java和python的两种简单实现,也主要是理解简单的思想。http://blog.youkuaiyun.com/u011067360/article/details/23941577python版本:这里实现一个手写识别算法,这里只简单识别0~9熟悉,在转载 2015-06-09 10:26:31 · 1009 阅读 · 0 评论 -
深入浅出谈数据挖掘zz
深入浅出谈数据挖掘zzhttp://www.cnblogs.com/end/p/3328388.html编者的话:本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应用的领域都有着非常清晰的论述。作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的转载 2015-06-09 11:11:46 · 760 阅读 · 0 评论 -
数据挖掘分类算法之决策树(zz)
数据挖掘分类算法之决策树(zz)决策树(Decision tree) 决策树是以实例为基础的归纳学习算法。 它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从 该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表转载 2015-06-09 11:15:32 · 1339 阅读 · 0 评论 -
数据挖掘10大算法(1)-支持向量机(SVM)(一)
最近在看斯坦福大学的机器学习的公开课,学习了支持向量机,再结合网上各位大神的学习经验总结了自己的一些关于支持向量机知识。一、什么是支持向量机(SVM)?1、支持向量机(Support Vector Machine,常简称为SVM)是一种监督式学习的方法,可广泛地应用于统计分类以及回归分析。支持向量机属于一般化线性分类器,这族分类器的特点是他们能够同时最小化经验误差与最大化几何边转载 2015-06-09 11:59:49 · 957 阅读 · 0 评论 -
数据挖掘10大算法(8)--CART: 分类与回归树
数据挖掘十大经典算法--CART: 分类与回归树http://www.dataguru.cn/article-4720-1.html数据挖掘十大经典算法--CART: 分类与回归树摘要: 一、决策树的类型在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。转载 2015-06-09 10:21:11 · 658 阅读 · 0 评论 -
数据挖掘系列(5)分类算法评价
一、引言 分类算法有很多,不同分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如某个地区某天地震的转载 2017-06-15 16:49:08 · 442 阅读 · 0 评论