2017.2.27
第一章 《机器学习基础》
思维导图
1、关键术语的解释
特征:测量所有可测属性,而后再挑选出重要部分,也可以称作属性
分类:机器学习的主要任务就是分类,即根据目标变量对特征进行分类
训练集:通常我们为算法输人大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合
训练样本:特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本
目标变量:目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的
测试集:当机器学习程序开始运行时,使用训练样本集作为算法的输人,训练完成之后输人测试样本。测试过程提供的样本集合即为测试集
知识表示:假定分类程序,经过测试满足精确度要求,是否我们就可以看到机器巳经学会了如何区分不同的鸟类了呢?这个过程称为知识表示,知识表示可以采用规则集的形式,也可以采用概率分布的形式。
监督学习:机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。主要任务是将实例黎据划分到合适的分类中。机器学习的另一项任务是回归,它主要用于预测数值型数据。大多数人可能都见过回归的例子— 数据拟合曲鉍:通过给定数据点的最优拟合曲线。分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
非监督学习:数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合