一、Mahout的介绍
Mahout 是 一个来自Apache的、开源的机器学习的软件库。它所实现的算法归属于机器学习。现在Mahout主要关注于推荐引擎(协同过滤)、聚类和分类。
其次Mahout是可扩展的,它旨在当所处理的数据规模远大于单机处理能力时成为一种可选的机器学习工具。在现在Mahout中,这些可扩展的机器学习实现都是用java来写的,而且有些事建立在Apache的Hadoop分布式计算项目之上的。
Mahout只是一个java的软件库,并不提供用户接口预装服务器或者安装程序。
二、Mahout的领域(算法)介绍
现在Mahout项目在理论上可以实现所有类型的机器学习技术,但是实际上现在它仅仅关注推荐引擎(协同过滤)、聚类和分类。
1、推荐引擎
推荐引擎很好辨认,在一些购物网站上,网站的服务器会根据你过去的行为向你推荐书籍,文章等等你可能感兴趣的东西。它们会推测你的品位和爱好,找到与之相关的物品,并且推荐给你。
2、聚类
聚类师徒将大量的事物组合为拥有类似属性的簇,借以在一些规模较大或难与理解的数据及上发现层次结构和顺序,已解释一些有用的模式或让数据集更易于理解。企业可以发现用户中的潜在群体。
3、分类
分类计数决定了一个事物多大程度上从属于某些类别或类型,或者多大程度上具有或者不具有某些属性。分类有助于判断一个新的输入或新的事物是否与以前观察到的模式相匹配,它通常还被用于遴选异常的行为或模式,来检测可疑的网络活动或欺骗行为。