机器学习主要分为有监督学习和无监督学习两种。
监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。比较典型的应用就是分类和回归。
无监督学习(unsupervised learning):事先没有任何训练数据样本,需要直接对数据进行建模,以发现数据中的结构性知识。比较典型的应用就是聚类。
无监督与监督学习的区别在于一个无教学值,一个有教学值。但是,个人认为他们的区别在于无监督学习一般是采用聚簇等算法来分类不同样本。而监督学习一般是利用教学值与实际输出值产生的误差,进行误差反向传播修改权值来完成网络修正的。但是无监督学习没有反向传播修改权值操作。
样本全部带标记/样本全部不带标记。带标记的是监督学习,不带标记的非监督学习,部分带标记的是半监督学习。
训练集有输入有输出是有监督,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means 、PCA、 GMM等。