1.无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习,“监督”的意思可以直观理解为“是否有标注的数据”。
2.无监督学习的特点是,传递给算法的数据在内部结构中非常丰富,而用于训练的目标和奖励非常稀少。无监督学习算法学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定任务。
- 让机器自己去“学习”如何做——让机器具备人工智能的前提,需要我们用一定量的数据集对机器进行“训练”。如果机器能够根据一些狗狗的图片(训练数据),推演识别出各种类型和状态(包括卡通狗狗)的狗狗的能力,我们就说这台机器被赋予了“智慧”,也就是具备了人工智能。
这个学习的过程,在人工智能术语里称为机器学习。机器学习种类包含:监督学习(supervised Learning)、半监督学习(Semi-supervised learning)、增强学习(reinforcement learning)、无监督学习(unsupervisedlearning)。 - 常用方法之聚类——无监督学习即没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常常被用于数据挖掘,用于在大量无标签数据中发现规律。而聚类是无监督学习的常见任务,就是将观察值聚成一个一个的组,每一个组都含有一个或者几个特征,聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。 因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。例如无监督学习应该能在不给任何额外提示的情况下,仅依据一定数量的“狗”的图片特征,将“狗”的图片从大量的各种各样的图片中将区分出来。
- 与自监督学习的区别:
- 对训练集与测试集的使用方式不同。
监督学习的目的是在训练集中找规律,然后对测试集运用这种规律。而无监督学习没有训练集,只有一组数据所构成的数据集,在该组数据集内寻找规律。 - 训练集是否有标签。
有监督学习的识别的结果表现在:给待识别数据加上标签,因此训练集必须由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不按照某种预先定义的分类标签进行标注。 - 无监督学习方法是在数据集中寻找规律性。
这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类 。而有监督学习则是通过对有标签的数据集进行训练得到一个最优模型。
3.无监督学习的常用算法:无监督学习算法没有标签,因此训练模型往往没有明确目标,对于训练结果也可能并不确定,在本质上来说,无监督学习算法是一种概率统计的方法,用以在数据中发现一些潜在结构。
一个经典的无监督学习任务是找到数据的最佳表示,去除那些无关紧要不影响大局或影响因子极小的因素,找到数据最核心最关键的简单表示,这里的简单表示包括低纬表示(将 x 中的信息尽可能压缩在一个较小的表示中,通常会产生比原始的高维数据具有较小或较弱依赖关系的元素