机器学习分类:
1)有监督学习
常用算法:回归分析和统计分类
应用场景:训练神经网络(判断网络的错误,然后调整网络去适应它)与决策树(用于判断那些属性提供了最多的信息)
2)无监督学习
应用场景:关联规则的学习和聚类
常用算法:Apriori和k-Means算法
3)半监督学习
····
一些机器学习算法:
1)回归算法
试图采用对误差的衡量来探索变量之间的关系
最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条···
2)基于实例的算法
新数据与样本数据作对比来寻找最佳匹配。
KNN,LVQ,SOM
3)正则化方法
4)决策树学习
根据数据的属性采用树状结构简历决策模型,通常用来解决分类和回归问题。
分类及回归树····
5)贝叶斯学习
基于贝叶斯定理,用于解决分类和回归问题。
朴素贝叶斯算法,····
6)基于核的算法
把输入数据映射到一个高阶的向量空间,有些分类或者回归问题更能很好的解决。
SVM,····
7)聚类算法
按照中心点或者分层的方式对输入数据进行归并。
k-means,···
8)关联规则学习
通过寻找最能够解释数据变量之间关系的规则,来找出大量的多元数据集中有用的关联规则。
Apriori算法
SPARK MLlib
特性:
1)机器学习算法一般有很多迭代计算的过程,在多次迭代后获得足够小的误差或者足够收敛才会停止。spark基于内存的计算模型擅长做迭代计算。
2)spark的通信机制:Akka和Netty,通信效率高。
3)基于RDD构建起来的Spark MLlib和SparkSQL,Spark Straming,GraphX等子框架无缝的共享数据和操作
Spark将机器学习算法都分成了两个模块:
训练模块:通过训练样本输出模型参数
预测模块:利用模型参数初始化,预测测试样本,输出并测值