学习篇(二)监督学习和无监督学习
根据训练数据是否有标记信息,学习任务大致分为:
监督学习(supervised learning)和无监督学习(unsupervised learning)
分类和回归是前者的代表,而聚类是后者的代表。
概念:
1.监督学习(Supervised learning)
从给定的数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。
举例:不仅把书给学生进行训练给书本分类的能力,而且把分类的结果(哪本书属于哪些类别)也给了学生做参考标准。
2.无监督学习(Unsupervised learning)
样本数据类别未知,需要根据样本间的相似性对样本集进行聚类,试图使类内差距最小化,类间差距最大化。
举例:只给学生进行未分类的书本进行训练,不给标准参考,学生只能自己分析哪些书比较像,根据相同与相似点列出清单,说明哪些书比较可能是同一类别的。
区别:
有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
选择:
简单的方法就是从定义入手,有训练样本则考虑采用监督学习方法;无训练样本,则一定不能用监督学习。