关于机器学习的一些基本概念的整理
1.前言
1.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义,假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
- 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。
- 关于产生的模型(model),可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到,模型是全局结果(例如一颗决策树),模式指的是局部性结果(例如一条规则)。
2. 基本术语
引例,假设搜集到一些关于西瓜的数据(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),......
上述引例中,每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录,则有:
数据集 (data set): 一组记录的集合
示例/样本(instance/sample):上述都每一条记录,均可称为示例/样本
属性/特征(attribute/feature):反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽,根蒂,敲声
属性值(attribute value): 属性上的取值,例如青绿,乌黑,等等
特征向量(feature vector): 属性空间上每一个点相对原点构成的坐标向量
样本维数(sample dimensionality): 每一个样本(示例)所包含的不同属性的数量
学习/训练(learning/training) : 从数据中学得模型的过程
训练数据(training data): 训练过程中使用的