Mahout 仅提供一些java的算法包,通过Mahout执行这些算法包,并把hdfs上的文件作为输入可以在hadoop上做分布式计算
提供的常用算法
Mahout
提供了常用算法的程序库,可以基于分布式做数据挖掘.
常见算法
回归算法:用于预测(日期交易量预测等等)。
比如身高和体重作为x,y坐标,给出一组人的身高体重,形成作为图上的一个个点(学习集),
计算出一条直线或者抛物曲线,能够离所有点综合距离最小。
那么可以任意给出身高,根据给出的曲线预测出相应的体重。
-------------------------------------------------------------
分类器
依据以往的数据样本,做出一个分类器(或者说分类函数),对现有的数据进行分类。
通常是二分函数
贝叶斯分类器 概率分类器
常用于垃圾邮件的分类,将邮件内容进行分词,发现词语高频率属于垃圾邮件的词汇,
判断出此邮件是否为垃圾邮件的概率。
---------------------------------------------------------------
聚类(K-Means)
根据数据的共同特性,进行归类。
比如动物的进化树,通过分析DNA做聚类,可以计算出哪些生物是有亲缘关系。
------------------------------------------------------------------
频繁数据挖掘
依据以往数据样本,计算出物品共同出现的概率。
可以做推荐系统
-----------------------------------
本文详细介绍了在Ubuntu环境下,基于Hadoop 2.6.2的Mahout 0.12.1安装配置及使用过程,包括kmeans聚类算法的执行和结果分析,展示了如何进行数据预处理、向量化以及KMeans聚类,提供了完整的命令行操作步骤。
订阅专栏 解锁全文
1082

被折叠的 条评论
为什么被折叠?



