读书笔记-统计学习方法(李航)第一章

1.1 统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据预测和分析的一门学科。

统计学习的主要特点是:

1:统计学习以计算机网络为平台,是建立在计算机及网络之上的。
2:统计学习以数据为研究对象,是数据驱动的学科。
3:统计学习的目的是为了对数据进行预测和分析
4:统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
5:统计学习是概率论、统计学、信息轮、计算理论、最优化理论、计算机科学等多个领域的交叉学科。

统计学习的对象:

统计学习的对象是数据,它从数据出发,提取数据特征,抽象出数据模型,发现数据中的知识,又回到对数据的分析和预测中去。

统计学习的目的:

统计学习用于对数据进行预测与分析,统计学习的目标就是i 考虑学习什么样的模型和如何学习模型,以使模型对数据进行准确的预测和分析

统计学习的方法:

    1:无监督学习
    2:有监督学习
    3:半监督学习
    4:强化学习

实现一个统计学习方法的步骤如下:

(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型 假设空间,即学习模型的集合(如一次方程 ax + b的模型 ,更具a、b的不同取值得到的所有的一次方程)
(3)确定模型选择的准则,即模型策略
(4)实现求解最有模型的算法
(5)通过学习方法选择最优模型
(6)通过学习的最优模型对新数据进行预测或分析

=================================================================

1.2 监督学习

输入空间:输入数据的集合
输出空间:输出数据的集合
特征空间:输入空间中每个具体的输入称为一个实例,实例通常由特征向量表示,每一维特征向量对应一个特征

X表示输入变量, Y表示输出变量
x 、y表示输入变量和输出的具体取值
输入实例的特征向量记作:
在这里插入图片描述

这里上标表示一个实例中的第 i 个特征 ,下标通常表示第 i 个实例
在这里插入图片描述

联合概率分布:

监督学习假设输入和输出的随机变量X和Y遵循联合概率分布P(X,Y)。统计学习假设数据存在一定的统计规律,X和Y具有独立同分布的假设就是监督学习关于数据的基本假设。

假设空间:

监督学习的目的在于学习一个由输入到输出的映射,这一映射用模型来表示。模型属于由输入空间到输出空间的映射的集合,这一集合就是假设空间。

图示:
在这里插入图片描述

=================================================================

1.3 统计学习三要素

方法 = 模型 + 策略 + 算法

模型
模型就是所要学习的条件概率分布或决策函数。假设空间就是这些模型的集合,假设空间中的模型一般有无穷多个。假设空间用F表示。

策略
损失函数度量模型一次预测的好坏吗,风险函数度量平均意义下模型预测的好坏。

算法
算法是指学习模型的具体计算方法,即用什么方法最小化损失函数。


统计学习常用的损失函数

(1) 0-1损失函数:在这里插入图片描述
(2)平均损失函数:

(3)绝对损失函数
在这里插入图片描述
(4)对数损失函数 或对数似然损失函数
在这里插入图片描述


期望风险和经验风险

损失函数越小,模型就越好。由于模型的输入输出变量(X , Y)是随机变量,遵循联合概率分布,所以损失函数的期望是:
在这里插入图片描述

由于P(x,y)是未知的,这个期望损失(真实的期望损失)是求不出来的,所以我们可以用经验风险(损失)近似的表示真实的损失值。

平均损失称为经验风险或经验损失(empirical loss):
在这里插入图片描述
当样本足够多时,期望风险个经验风险趋向于相同,但是当样本数量较少时,就需要对经验分析进行一定的矫正。

这就需要 经验风险最小化结构风险最小化 的策略。

经验风险最小化和结构风险最小化

当样本容量很小时,经验风险最小化(empirical risk minimization,ERM)模型未必很好,会产生过拟合的现象。这时候就需要结构风险最小化(structural risk minimization,SRM )的策略。
在这里插入图片描述

结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项获罚项。J(f)表示模型的复杂度,是定义在假设空间上的泛函,模型函数越复杂,复杂度越大。也就是说复杂度表示来对复杂模型的惩罚

这相当于去最小化经验风险和模型复杂度加权之和的值,要求经验分析和模型复杂度同时很小。

1.4 模型的评估和选择

在这里插入图片描述

1.5 正则化和交叉验证

模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项获罚项(上文已提过)

二范数正则项:
在这里插入图片描述一范数正则项:
在这里插入图片描述

奥卡姆剃刀:
损失函数小且模型复杂度低的模型才是好模型(的思想)

交叉验证是指随机将数据集分为训练集、验证集和测试集。训练集用来训练模型,验证集用来模型的选择,测试集用于最终对学习方法对评估。在学习到的不同复杂度模型中,选择对验证集有最小误差的模型

1.6 泛化能力

学习方法的泛化能力是指由该方法学习到的模型未知数据的预测能力,是学习方法本质上重要的性质。
在这里插入图片描述事实上泛化误差就是所学习到的模型的期望风险。
泛化误差上界是关于样本数量的函数,样本数量越多,泛化误差上界就越接近0,泛化能力越好。

1.7 生成模型和判别模型

监督学习方法可以分成生成方法和判别方法。
生成方法是有数据学习联合概率分布P(X,Y),然后求出条件概率分布的P(Y|X)作为预测的模型,即生成模型:
在这里插入图片描述
这样的方法之所欲称为生成方法是因为模型表示来给定输入X产生输出Y的生成关系,典型的生成模型由朴素贝叶斯法和隐马尔可夫模型。

判别方法是直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,判别方法关心的是给定输入X,应该预测什么样的输出Y.典型的判别模型包括:k-近邻 、 感知机、决策树、逻辑回归、最大熵、支持向量机、提升方法、条件随机场等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值