什么是机器学习?
[Mitchell,1997]:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
全文第1章绪论部分重点介绍了机器学习中的【1】基本术语;【2】假设空间;【3】归纳偏好;【4】发展历程与现状
【1】基本术语
以一批西瓜为例(估计这就是西瓜书的由来):
(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),
(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),
(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆)。
根据上述数据为例,我们有如下概念:
数据集(data set):这组数据的集合
示例/样本(instance/sample):数据集中,每条记录是关于一个事件或对象(这里是一个西瓜)的描述
属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质的事项,例如色泽、根蒂、敲声
属性值(attribute value):属性上的取值
属性空间/样本空间/输入空间(attribute/sample/input space):属性张成的空间,一个属性当作一个坐标轴,在上述数据中存在3个属性(可以理解成维度),我们可以将其张成三维空间,每一个西瓜都可以在该三维空间中找到自己的坐标
特征向量(feature vector):由于空间中的每个点对应一个坐标向量,因此也称一个示例为一个“特征向量”
维数(dimensionality):可以理解为属性的数量
学习/训练(learning/training):从数据中学习