机器学习笔记——监督学习/无监督学习分类笔记
监督学习
给出一数据组,并已知晓这组数据的对应关系,然后给出一组新的数据,尝试对其进行预测和分析,这里注意,提前给出的数据组(data set)是已知内部的数据的对应关系,后面给出的新的数据,是要依据对之前数据的学习后,给出新的数据对应的预测值。而对于预测的结果的不同,又将监督学习分为分类(Classfication)和回归(Regression)
回归(Regression)
比如下列子:
已知某地区的房屋面积和对应的房价,然后要求对某个确定的房屋尺寸,做出对应的房价预测。
这里注意,已有的数据点(图中红色的×),是一致的数据组中的数据对应关系,现在要对新的房屋面积(图中绿色的750)做出房价预估,这里的预估结果是一个大致的数据值,对于预估数据值的问题类型,可以将其理解为回归问题。就是将新的预测对象的目标值分析对应到某一个具体的数据集中。比如下图中最后的“对房屋面积为750的房子的预估价格为200k”,这里最后的“200k”是在前期的数据分析得出的一个结果范围中。是一个具体的数值。
分类(Classfication)
简单的理解,同样是监督学习的范畴,就是对已知数据集,并且知道这些数据集之间的对应关系,然后给出一个新的数据,我们对新的数据的预测值仅为‘0’或’1‘的这样的一个分类。即最后的预测结果并非是一个大致的数值,而是一个类别,比如’好‘和’坏‘,’对‘或’错‘等。
比如:已知一些肿瘤的对应关系,图中横轴为肿瘤大小,纵轴为良性还是恶性,图中蓝色×为良性,红色×为恶性。现在给出一个尺寸的肿瘤(图中粉色箭头位置),现在要预测这个肿瘤是良性的还是恶性的,这个结果要么是良性,要么是恶性,其实就是’0‘和’1‘的判断结果,所以这个问题其实是分类问题。
无监督学习
无监督学习和监督学习可以从下面图中看出大概
左图中给出的数据集是已知的两种数据关系,并且做好分类了(圈和×),右图中给出的已知数据集没有做任何标识(均为圈),若对这两种情况的数据做分类,如下图:
左侧的很简单,根据已知数据点的类型,用算法将其分开即可,然而对于右侧的无监督学习,应为没有给出数据点之间的关系,从图中看,只能通过寻找这些数据之间的关系而将其分类,比如图中依据数据之间的聚集度将其分为两大类,即右图中两个绿色的圈圈所示。
对监督学习和非监督学习做个简单总结:
对于给出的数据集,若已知数据集之间的相互关系(如房屋面积和对应房价),则为监督学习;若不知对应关系(如上面右图的数据,最后被两个绿色的圈圈分开),则为非监督学习。
在监督学习中,若预测结果为某个确定的数值,此类型为回归问题,若预测结果为简单的分类,即类似于非0即1的,就为分类
PS:此学习笔记为学习斯坦福吴恩达机器学习视频笔记。