机器学习中
监督学习、无监督学习、半监督学习的区别:
监督学习:
直接理解就是根据数据集x的特征与目标集(lable)的关系,找到二者间的这个映射关系
可以用初等数学的理解就是
x ——> y 通过这个过程找到这个f(x)函数
并且在这个过程中,根据现有数据,将数据分为训练集和测试集(一般大于总量的20%)
根据训练集得到的model模型,预测测试集,反馈得到的结果
再根据反馈的结果,进一步对model进行修正
eg:
要求:你根据前三十年的世界人口数量的数据,预测未来几年的世界人口总数
而你就需要将已有数据分类为训练集和预测集,
利用训练集中数据的某些隐形关系,预测预测集中的人口总数
得到你训练得到的model与实际的误差,再根据误差进行反馈调整你得到的model
而这个训练的过程有巨人为你写好,可以直接用,也可以去理解(比较费时间)
无监督学习:
直接给你一组数据,没有目标,就是找这些数据的关系。
直观地讲,就是将数据进行分类
eg:
要求:将中国菜归结为十大菜系,再这个过程中没有直接反馈,就只能根据其中隐藏的关系尽可能的将菜品进行分类
比如:根据菜的辣度、菜品的地域、菜品的咸淡等等,根据相似度尽可能的进行分类
在这个过程中没有标准答案,也可以认为这就是个聚类分析的过程
半监督学习:
只能说它是介于监督学习和无监督学习之间的一种学习方式
就比如,监督学习与无监督学习的最大区别就是在一定范围内有无正确的目标反馈,我们将这一正确答案叫做lable
而监督学习就是有lable,无监督学习就是无lable,
半监督学习就是有一部分有lable,有一部分无lable
而这个lable的存在与否,就是区分这三者最本质的特征
当然,在日常操作中,会用就行,区分意义不大