hadoop 之Mahout 数据挖掘

本文详细介绍了在Ubuntu环境下,基于Hadoop 2.6.2的Mahout 0.12.1安装配置及使用过程,包括kmeans聚类算法的执行和结果分析,展示了如何进行数据预处理、向量化以及KMeans聚类,提供了完整的命令行操作步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Mahout 仅提供一些java的算法包,通过Mahout执行这些算法包,并把hdfs上的文件作为输入可以在hadoop上做分布式计算

提供的常用算法

Mahout
 
提供了常用算法的程序库,可以基于分布式做数据挖掘.
 
 
常见算法
 
回归算法:用于预测(日期交易量预测等等)。
比如身高和体重作为x,y坐标,给出一组人的身高体重,形成作为图上的一个个点(学习集),
计算出一条直线或者抛物曲线,能够离所有点综合距离最小。
那么可以任意给出身高,根据给出的曲线预测出相应的体重。
-------------------------------------------------------------
分类器
 
依据以往的数据样本,做出一个分类器(或者说分类函数),对现有的数据进行分类。
通常是二分函数
 
贝叶斯分类器 概率分类器
常用于垃圾邮件的分类,将邮件内容进行分词,发现词语高频率属于垃圾邮件的词汇,
判断出此邮件是否为垃圾邮件的概率。
---------------------------------------------------------------
聚类(K-Means)
 
根据数据的共同特性,进行归类。
 
比如动物的进化树,通过分析DNA做聚类,可以计算出哪些生物是有亲缘关系。
------------------------------------------------------------------
频繁数据挖掘
 
依据以往数据样本,计算出物品共同出现的概率。
可以做推荐系统
-----------------------------------
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

life1024

你的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值