此处我们主要是讨论监督学习。
统计学习方法三要素:模型的假设空间(模型)、模型选择的准则(策略)、模型学习的算法(算法)。
1、实现统计学习方法得步骤如下:
(1)获取一个训练数据集合
(2)确定包含所有可能的模型的假设空间,即学模型的集合
(3)确定模型学习的准则,即学习的策略
(4)确定实现求解最优模型的算法
(5)选择最优模型,对新数据进行预测和分析
2.模型
在监督学习中,模型就是要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。如:假设决策函数是输入变量的线性函数,则假设空间就是所有线性函数构成的线性函数集合。一般情况下,假设空间中的模型是无穷多个。
3、策略
(1)损失函数
所谓损失函数就是在假设空间中的模型f,对于给定的输入x,其f(x)的值与实际值y可能不一致,若不一致则f(x)与y的差值就用一个损失函数或者代价函数来度量。简单讲,就是使用模型计算的值与实际值相比的错误程度。一般讲损失函数的值越小,则证明模型越好。
(2)风险函数
模型f(x)关于联合分布函数P(x,y)的平均意义下的函数,成为风险函数或者期望损失。学习的目标就是期望风险最小的模型。
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。一般情况下,当样本数量趋于无穷的时候,期望风险等于经验风险。
(3)经验风险最小化与结构风险最小化
在假设空间、损失函数及训练数据确定的情况下,经验风险函数也就可以确定,经验风险策略认为当经验风险最小的模型就是最优模型。于是,经验风险最小化就成了求解一个最优化问题,形式如下:
当样本容量很大时,经验风险最小化可以保证有较好的效果。但当样本容量较小的时候,可能会出现“过拟合”现象,所谓过拟合是指较复杂曲线很好地区分了训练数据,但是对于未知数据的预测效果较差。
针对以上可能出现的“过拟合”现象,结构风险最小化就是为了防止这种现象出现而提出的策略。其主要是在经验风险中加上表示模型复杂度的惩罚项。在假设空间、损失函数、训练数据确定的情况下,结构风险的定义如下:
其中J(f)表示为模型的复杂度,f越复杂则复杂度J(f)就越大。其系数>0。结构风险小则需要经验风险和模型结构复杂度同时小。通常情况下,结构风险小的模型,其对训练数据及预测试数据均有较好的预测。
因此,结构风险最小化认为结构风险最小的模型为最好的模型。故,求最最有模型,就转化成了求最优解问题:minR(f)。
由上可知,所谓监督学习可以转化为经验风险或者结构风险最小化问题,此时的经验风险或结构风险函数就是最优化的目标函数。
4.算法
算法是指学习模型的计算方法。统计学习策略基于做给予的训练数据,选取了最优模型,则就需要选择适当的算法求解模型。此时统计学习问题就变成了最优化问题。最优化问题一般是没有显示的解的,因此我们就需要已有的最优化求解或者自己的最优化求解算法进行求解。