第1章 绪论
1.1引言
日常生活中有很多基于经验做出的预判,如判断天气、判断西瓜是否成熟。我们能做出有效的预判,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新 情况做出有效的决策。
机器学习它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,"经验"通常以"数据"形式存 在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm)。([Mitchell, 1997J 给出了 一个更形式化的定义假设用来评估计算机程序在某任务类上的性能, 若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。)
本书用"模型"泛指从数据中学得的结果。有文献用"模型"指全局性结果(例如一棵决策树),而用"模式"指局部性结果(例如一条规则).
1.2基本术语
要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅白;根蒂 硬挺;敲声=清脆),……,每对括号内是一条记录, "=”意思是"取值为"。
这组记录的集合称为一个"数据集" (data set) ,其中每条记录是关于一个