1.1 引言
基础概念弄得清清楚楚,算法作业也是信手拈来,这门课成绩一定查不了!
基于经验的三个预判例子:
微湿路面、感到和风、看到晚霞,预判第二天天气很好;
色泽青绿、根蒂卷缩、敲声浊响,预判西瓜是好瓜;
下足功夫、弄清概念、做好作业,预判会取得好成绩。
我们能做出有效的判断,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新情况做出有效的决策。
机器学习(Machine Learning)致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在。因此,机器学习所研究的主要内容,是关于计算机上从数据中产生“模型”(model)的算法,即“学习算法”(Learning Algorithm)。
经验数据------>学习算法------>模型------>接收新情况------>做出新判断;机器学习是研究关于“学习算法”的学问。
本书中,用“模型”泛指从数据中学得的结果。有文献用“模型“指全局性结果(例如一棵决策树),而用”模式“指全局性结果(例如一条规则)。
1.2 基本术语
数据集(data set):是一组数据的集合。
示例(instance)或样本(sample):是数据集中每条记录,关于一个事件或对象的描述。
属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值。
属性空间(attribute space)、样本空间(sample space)或输入空间:是属性张成的空间。
特征向量(feature vector):我们把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个习惯都可以在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个”特征向量“。
一般的,令D = {x1, x2, ... , xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi = {xi1, xi2, xi3, ... , xid}是d维样本空间X中的一个向量,xi 属于 X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。
“学习(learning)”或“训练(training)”是指:从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
训练数据(training data)是指:训练过程中使用的数据。
训练样本(training sample)是指:训练数据中的每个样本。
训练集(training set)是指:训练样本组成的集合。
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律。
“真相”或“真实”(groud-truth):这种潜在规律自身。
学习过程就是为了找出或逼近真相。
学习器(learner):本书有时将模型称为learner,可看作学习算法在给定数据和参数空间上的实例化。