Mahout学习(1)

大数据时代,Hadoop成为大数据分析的首选平台和开发标准,无数分析软件围绕着Hadoop展开。Mahout是一个基于Hadoop的机器学习和数据挖掘的分布式计算框架,在MapReduce模式下封装实现了大量数据挖掘经典算法。大大降低了大数据应用中并行挖掘产品的开发难度。在掌握了Mahout之后,Hadoop开发人员可以直接调用相关算法模型的接口,方便、快捷地创建只能应用程序。


近几年最火的是云计算,云计算的核心重点是云平台下算法的开发,有了算法的支撑才能发挥云计算的最大优势。云计算是一种基于互联网的计算方式,通过这种方式,共享软硬件资源和信息可以按需提供给计算机和其他设备。Hdoop云平台是一个用于处理大数据的分布式应用开发框架。


在Hadoop环境下编程不仅需要了解Hadoop的平台框架,而且要了解底层数据流,Map和Reduce的工作原理。如果是基于Hadoop开发数据算法,那么就更难了。有了Mahout,只要关心算法的接口如何调用,算法的基本原理和应用场景就可以了。Mahout是Apache基金会的开源项目之一。


Mahout目前包含的算法包括:

(1)聚类算法

聚类的目的就是把一组无标签的数据完美地贴上标签。

Canopy算法:简单,快速聚类方法,一般用于其他聚类算法的初始步骤中,比如k-means算法。

K-Means算法:简单,广为人知

Fuzzy(模糊的意思) K-Means算法:一种基于K-Means的拓展,一个数据点可能属于几个聚类中心。

Mean Shift算法:该算法不需要知道要聚类的类别数。之前一般用于图像平滑,分割等。

Spectral算法:比K-Means专业多了,主要针对的数据是图像数据。

Minhash算法:只负责将原始内容尽量均匀随即地映射为一个签名值,原理上相当于伪随机数产生算法。

Top Down算法:分层聚类的一种,首先寻找较大的聚类中心,然后对这些中心进行细粒度分类。


(2) 分类算法

分类是一种基于已经被贴了标签的训练样本数据,区分另外的样本数据标签的过程,即另外的样本数据应该如何贴标签的问题。

Logistic Regression: 一种利用预测变量来预测事件出现概率的模型。其主要应用于生产欺诈检测,广告质量估计,定位产品预测等。在Mahout主要使用随机梯度下降来做这件事情。

Bayesian: 事件A在事件B发生条件下的概率;与事件B在事件A发生条件下的概率是不一样的。贝叶斯定力就是这种关系的陈述。在Mahout中,目前有两种贝叶斯分类器,朴素贝叶斯分类器和互补型的朴素贝叶斯分类器。

Support Vector Machine: 支持向量机,属于一般化线性分类器。分类器的特点是它能够同时最小化经验误差与最大化几何化边缘区。

Random Forests: 随机森林是一种包含多个决策树的分类器,并且其输出的类别由个别树输出的类别的众数而定。随机森林算法再决策树的基础上发展而来,继承了决策树的优点,同时弱化了决策树的缺点。

Hidden Markov Models:隐式马儿可夫模型主要用在机器学习上,比如语音识别,手写识别及自然语言处理等。隐马儿可夫模型是一个包含两个随机变量O和Y的分析模型。


(3)协同过滤算法

Distributed Item-Based Collaborative Filtering: 基于项目的协同过滤算法,利用项目之间的相似度为用户进行项目推荐。项目之间的相似度通过不同用户对该项目的评分来求出,每个项目都有一个用户向量,两个项目之间的相似度便是根据这个用户向量求得的。

Collaborative Filtering using a parallel matrix factorization:核心思想是把所有的用户以及项目想象成一个二维表格。


(4)频繁项集挖掘算法

在Mahout算法库中,频繁项集挖掘算法主要是指FP树关联规则算法。







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值