主要介绍一下,mahout环境变量的配置,推荐算法的api,以及通过命令行来使用mahout。
一、mahout简介
mahout的logo和它的名字一样,是一个象夫,这里的大象代表的是hadoop。mahout可以基于hadoop快速创建高性能的机器学习应用。
目前(2015/11/6,版本0.11.1)的版本的mahout主要包含三个部分:
- 构建可扩展算法的环境
- 成熟的MapReduce算
- 新的Scala+spark算法
算法类 | 算法名 | 中文名 |
---|---|---|
分类算法 | Logistic Regression | 逻辑回归 |
- | Bayesian | 贝叶斯 |
- | SVM | 支持向量机 |
- | Perceptron | 感知器算法 |
- | Neural Network | 神经网络 |
- | Random Forests | 随机森林 |
- | Restricted Boltzmann | Machines |
聚类算法 | Canopy Clustering | Canopy聚类 |
- | K-means Clustering | K均值算法 |
- | Fuzzy K-means | 模糊K均值 |
- | Expectation Maximization | EM聚类(期望最大化聚类) |
- | Mean Shift Clustering | 均值漂移聚类 |
- | Hierarchical Clustering | 层次聚类 |
- | Dirichlet Process Clustering | 狄里克雷过程聚类 |
- | Latent Dirichlet Allocation | LDA聚类 |
- | Spectral Clustering | 谱聚类 |
关联规则挖掘 | Parallel FP Growth Algorithm | 并行FP Growth算法 |
回归 | Locally Weighted Linear Regression | 局部加权线性回归 |
降维/维约简 | Singular Value Decomposition | 奇异值分解 |
- | Pr |