
Machine Learning
GatsbyNewton
这个作者很懒,什么都没留下…
展开
-
Spark MLlib之机器学习(一)
1.定义先看一下机器学习的定义,以下是Wikipedia的定义:Machine learning is a scientific discipline that explores the construction and study of algorithms that can learn from data.当然,要说的更接地气点儿,就是让机器会学习,那怎么样才能让机器学习呢?那就需原创 2015-09-29 21:43:44 · 1624 阅读 · 0 评论 -
C4.5算法笔记
1.简介C4.5算法是机器学习和数据挖掘领域中的一个用于处理分类问题的算法。该算法是有监督学习类型的,即:给定一个数据集,所有实例都由一组属性来描述,每个实例仅属于一个类别,在给定数据集上运行C4.5算法可以学习得到一个从属性值到类别的映射,进而可使用该映射去分类新的未知实例。C4.5算法是由J.Ross Quinlan设计的,源于名为ID3的一种决策树诱导算法,而ID3是被称为“迭代分解原创 2016-02-25 20:12:54 · 3022 阅读 · 1 评论 -
Spark MLlib之机器学习(三)
上一篇我们简单了解了Spark MLlib中的Supervised Learning,那么这一篇,我们主要介绍Unsupervised Learning。本篇介绍的内容有:KMeans、PCA(Principal Conponent Analysis)和SVD(Singular Value Decomposition)。1.Unsupervised Learning(非监督学习)首先,我们原创 2015-10-05 17:16:52 · 2609 阅读 · 1 评论 -
Spark MLlib之机器学习(二)
通过上一篇的简介,我们对Spark MLlib的基础有了一些了解。那么,从这一篇开始,我们进入实战阶段。因为是介绍Spark MLlib的应用,所以我这里不会详细介绍算法的推导,后续我会抽时间整理成专题进行介绍。而这一篇主要介绍Spark MLlib中的监督学习算法:Logistics Regression、Naive Bayes、SVM(Support Vector Machine)、Decis原创 2015-10-03 12:27:46 · 2164 阅读 · 1 评论 -
马尔可夫聚类算法(MCL)
1.基础1.1Random Walks在图中,通过Random Walks处理,可以找到数据在哪里聚集,或者聚簇在哪。图中的Random Walks是使用马尔可夫链计算求出。1.2马尔可夫链(Markov Chain)先看一个简单的例子:第一步,结点1的Random Walker有33%的概率到达结点2、3和4,且有0%的概率到达结点5、6和7。对于结点原创 2015-12-05 17:10:40 · 34894 阅读 · 15 评论 -
Naive Bayes笔记
1.贝叶斯定理表示事件B发生的情况下,事件A发生的概率。其基本求解公式:对于很容易直接推导出,但对于更加关心的,则很难直接推导。但是借助贝叶斯公式就很容易求解:2.算法描述下面用一个例子来描述Naive Bayes算法的过程。假设这里有一张最近统计的病例表,如下:症状职业原创 2015-10-09 19:01:54 · 1132 阅读 · 0 评论 -
KMeans笔记
1.算法描述K-Means算法的输入对象是d维空间中的一些点。因此,它是对一个d维向量的点集进行聚类,其中表示第i个对象(或称数据点)。K-Means聚类算法将集合D划分成k个聚簇。也就是说,K-Means算法对D中所有的数据点进行聚类处理,将每个点都归于k个聚簇中的一个。我们可以为每一个点分配一个聚簇标识以记录该点分配到哪一个聚簇中去了,拥有相同聚簇标识的点属于同一聚簇,反之,属于不同聚簇。原创 2015-10-08 19:10:23 · 1412 阅读 · 0 评论 -
Logistic Regression笔记
1.Logistic Regression模型Logistic Regression预测的值是0和1,即Logistic Regression通过一系列函数作用后值域是{0,1}。那么,这个核心函数就是Sigmoid函数或Logistic函数。Sigmoid函数的表达形式如下:函数图像如下:Sigmoid函数的性质:当x=0时,Sigmoid(x)=0.5,并且,随原创 2015-10-06 22:05:53 · 1099 阅读 · 0 评论 -
PageRank笔记
1.算法概述我们知道互联网的网页是通过超链接联系起来的,而这些超链接蕴含着重要的信息。互联网上的链接可以分为两类:一类链接用来对站点的大量信息进行组织,所以这类链接就指向同一站点内的页面;另一类链接则指向其他站点的页面,这种外向型超链接起到一种向目标网页隐式传递权威性的作用。例如,如果你的网页指向一个外部的一个站点的网页,这显然表明你相信这个外部站点包含了对你有用的、有一定质量的信息。因此,那原创 2015-10-07 15:10:09 · 1882 阅读 · 0 评论 -
PCA算法详解
PCAPCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我转载 2015-07-19 20:31:41 · 62131 阅读 · 12 评论 -
RMQ(Range Minimum Query)
RMQRMQ(Range Minimum Query) 是指区间最值查询,即对于长度为 $ n $ 的数列 $ A $,回答若干询问 $ RMQ(A, i, j), (i,j <= n) $,返回数列 $ A $中下标在 $ i, j $ 之间的最小/大值。如果用 $ f(n) $ 表示算法预处理时间复杂度,$ g(n) $ 表示算法的查询时间复杂度,那么 RMQ 的算法的复杂度是 $ \left原创 2017-09-17 15:12:28 · 1481 阅读 · 0 评论