统计学习方法笔记

   统计学习(统计机器学习)是计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

一、统计学习三要素
三要素:模型、策略和算法。
1、模型
模型的假设空间包含所有可能的条件概率分布或决策函数。
2、策略
选择最优模型的准则,寻找损失最少的决策函数。
2.1 损失函数
度量预测错误的程度。
常用损失函数:0-1损失函数、平方损失函数、绝对损失函数和对数损失函数。
2.2 风险函数
模型关于联合分布的平均意义下的损失。
在这里插入图片描述
但联合分布未知,故在样本容量N足够大时可用训练集的平均损失(即经验风险)来代替风险函数。
在这里插入图片描述
另外还可以应用经验风险最小化和结构风险最小化来矫正经验风险从而使经验风险适应小容量数据集。
(1)经验风险最小化
在这里插入图片描述
当样本容量小时,经验风险最小化会导致过拟合现象。
(2)结构风险最小化
结构风险在经验风险上加上表示模型复杂度的正则化项或罚项,从而防止模型过于复杂导致的过拟合现象。
在这里插入图片描述
另一种防止过拟合的方法是交叉验证,其基本思想为将数据切分并组合为训练集和测试集,于此基础上反复进行训练、测试及模型选择,主要方法有简单交叉验证、S折交叉验证和留一交叉验证。
3、算法
求解最优化经验或结构风险函数。

二、监督学习
统计学习主要由监督学习、非监督学习、半监督学习以及强化学习组成。
监督学习关于数据的基本假设是输入与输出的随机变量具有联合概率分布。
1、生成模型和判别模型
(1)生成模型
生成方法由数据学习联合概率分布,然后求出条件概率分布作为生成模型。
典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。
(2)判别模型
判别方法由数据直接学习条件概率分布或决策函数作为判别模型。
典型的判别模型有k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
(3)生成模型和判别模型的优劣
生成方法收敛更快且存在隐变量时仍可以学习;判别方法准确率更高,可以对数据进行各种程度的抽象、定义特征并使用特征从而简化学习问题。
2、分类问题
输出变量为有限个离散变量的预测问题为分类问题。
评价标准(二分类):
精确率(判断为正类的类别中正类的比率):
在这里插入图片描述
召回率(正类中判断为正类的比率):
在这里插入图片描述
F1值(精确率和召回率的调和均值):
在这里插入图片描述
其中各类符号代表意义为:
在这里插入图片描述
3、标注问题
输入变量和输出变量均为变量序列的预测问题为标注问题。
常用的学习方法有隐马尔可夫模型和条件随机场。
4、回归问题
输入变量和输出变量均为连续变量的预测问题为回归问题。
常用损失函数为平方损失函数。

三、感知机
感知机是二类分类的线性分类模型,属于判别模型。
1、感知机模型
在这里插入图片描述
其中w为权值,b为偏置,sign为符号函数。
在这里插入图片描述
几何解释:
在这里插入图片描述
其中wx+b=0对应于特征空间中的一个分离超平面,w是超平面的法向量,b是超平面的截距,超平面将两部分特征向量分为正负两类。
2、感知机学习策略
感知机的损失函数即经验风险函数为:
在这里插入图片描述
其代表误分类点到超平面的总距离。
3、感知机学习算法
求解使损失函数最小的参数w和b,使用随机梯度下降法来求解该最优化问题。
原始形式:
在这里插入图片描述
对偶形式:
在这里插入图片描述
对偶形式预先将训练集中实例间的内积计算出来并存储为Gram矩阵。
当训练集线性可分时,感知机学习算法收敛,但存在多种解。

四、k近邻法
1、k近邻法模型
对于每个实例点,距离该点比其他点更近的所有点组成一个单元,所有训练实例点的单元构成对特征空间的划分。属于判别模型。
2、k近邻法分类策略
在这里插入图片描述
其中距离度量定义为:
在这里插入图片描述
当p等于1、2 及无穷时距离度量分别为曼哈顿距离、欧氏距离和坐标距离最大值,不同距离度量所决定的最近邻点是不同的。
k值的选择通常采用交叉验证来寻优。k值较小会减小近似误差,增大估计误差,容易造成过拟合;k值过大会使与输入实例较远的实例也会对预测造成影响从而造成预测错误。
3、k近邻法实现
3.1 构造kd树
在这里插入图片描述
在这里插入图片描述
3.2 搜索kd树
在这里插入图片描述
在这里插入图片描述
搜索平均时间复杂度为O(logn)。

五、朴素贝叶斯法
1、朴素贝叶斯法模型
朴素贝叶斯法由训练数据学习联合概率分布(估计得到先验概率分布和条件概率分布),再根据贝叶斯定理得到后验概率分布,将后验概率最大的类作为输出。其是典型的生成模型。
贝叶斯定理:

2、朴素贝叶斯法学习策略
期望风险最小化准则可推得后验概率最大化准则:
在这里插入图片描述
3、朴素贝叶斯法学习算法
第一步,计算先验概率和条件概率;
第二步,对于给定实例,计算每类的后验概率;
第三步,根据后验概率最大化准则确定实例的类。
其中先验概率和条件概率的估计可以采用极大似然估计或贝叶斯估计。
(1)极大似然估计
先验概率的极大似然估计:
在这里插入图片描述
条件概率的极大似然估计:
在这里插入图片描述
(2)贝叶斯估计:
极大似然估计可能会出现估计值为零的情况从而使得分类产生偏差,贝叶斯估计可以解决这一问题。
先验概率的贝叶斯估计:
在这里插入图片描述
条件概率的贝叶斯估计:
在这里插入图片描述
其中λ>=0;λ=0时是极大似然估计,λ=1时为拉普拉斯平滑。

六、决策树
1、决策树模型
决策树由结点(分为内部结点和叶结点,内部节点表示一个特征或属性,叶结点表示一个类。)和有向边组成。从根结点开始对实例中的某一特征进行划分,划分成的每个子结点代表该特征的一个取值,如此递归对实例进行划分直至将实例分到叶结点对应的类中。其是判别模型。
2、决策树学习
本质是从训练数据集中归纳出一组分类规则,再通过损失函数(通常是正则化的极大似然函数)来选择最优决策树,分别对应决策树学习的主要步骤生成和剪枝。
常用的学习算法有ID3、C4.5和CART。
2.1 ID3
(1)决策树的生成
在这里插入图片描述
在这里插入图片描述
其中特征选择采用信息增益作为选择标准。
信息增益定义为:
在这里插入图片描述
熵的定义为:
在这里插入图片描述
(2)决策树的剪枝
决策树的损失函数定义为:
在这里插入图片描述
剪枝算法为:
在这里插入图片描述
在这里插入图片描述
2.2 C4.5
与ID3不同之处仅在于将信息增益换成了信息增益比,其定义为:
在这里插入图片描述
2.3 CART
(1)决策树的生成
a. 回归树的生成
依据平方误差准则生成。
在这里插入图片描述
b. 分类树的生成
依据基尼指数最小化准则生成。
基尼指数定义为:
在这里插入图片描述
分类树生成算法:
在这里插入图片描述
在这里插入图片描述
(2)CART剪枝
在这里插入图片描述

七、逻辑斯谛回归与最大熵模型
1、二项逻辑斯谛回归模型
在这里插入图片描述
逻辑斯谛分布的密度函数f(x)和分布函数F(x)如下所示:
在这里插入图片描述
其中一个事件的概率表示为对数几率(或logit函数)
在这里插入图片描述
可应用极大似然估计估计模型参数,其对数似然函数L(w)的值为
在这里插入图片描述
2、最大熵模型
在这里插入图片描述
其中特征函数f(x,y)关于经验分布的期望值为
在这里插入图片描述
关于模型与经验分布的期望值为
在这里插入图片描述
其参数估计(学习过程)可等价为约束最优化问题:
在这里插入图片描述
经引入拉格朗日乘子可得最大熵模型为
在这里插入图片描述
参数估计的过程即可变为对模型求最优参数w的过程。
同时参数估计的过程也可等价为最大熵模型的极大似然估计。
3、模型学习的最优化算法
逻辑斯谛回归模型和最大熵模型均是以似然函数为目标函数的最优化问题,皆是判别模型。常用的方法有改进的迭代尺度法、梯度下降法、牛顿法和拟牛顿法。
(1)改进的迭代尺度法
在这里插入图片描述
在这里插入图片描述
(2)拟牛顿法
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值