统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)

本文介绍了逻辑斯谛回归的基本概念,包括逻辑斯谛分布、二项逻辑斯谛回归模型及其参数估计方法,并详细解释了最大熵原理及最大熵模型的构建过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)

逻辑斯谛分布

设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:

其中μ为位置参数,γ为形状参数。

逻辑斯谛分布的密度函数和分布函数:

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是如下的条件概率分布:

对于给定的输入实例x,求得P(Y=1|x)和P(Y=0|x),比较两个条件概率值的大小,将实例x分到概率值较大的一类。

方便起见,将权值向量和输入向量扩充,即
w=(w(1),w(2),…,w(n),b)
x=(x(1),x(2),…,x(n),1)

此时逻辑斯谛回归模型为:

一个事件的几率是指事件发生的概率与不发生的概率的比值。若事件发生概率为p,则其对数几率为:

对逻辑斯谛回归而言:

即输出Y=1的对数几率是输入x的线性函数。

参数估计

可以应用极大似然估计法估计模型参数。设:

似然函数为:

对数似然函数:

对L(w)求极大值,得到w的估计值。

这样问题就变成了以对数似然函数为目标函数的最优化问题,通常采用梯度下降法和拟牛顿法。

最大熵原理

假设离散随机变量X的概率分布是P(X),则其熵是:

熵满足:

最大熵原理是概率模型的学习的一个准则,认为在所有可能的概率模型中,熵最大的模型是最好的模型。

最大熵原理认为要选择的概率模型首先需满足约束条件,在没有更多信息的情况下,那些不确定的部分是等可能的。

最大熵模型

给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布:

其中v表示出现频数,N表示样本容量。

用特征函数f(x,y)描述输入x和输出y之间的某一个事实:

特征函数f(x,y)关于经验分布

的期望值:

特征函数f(x,y)关于模型P(Y|X)与经验分布

的期望值:

若模型能够获取训练数据中的信息,即可假设这两个期望相等:

将该式作为模型学习的约束条件。

假设所有满足约束条件的模型集合为:

定义在条件概率分布P(Y|X)上的条件熵为:

则模型集合C中条件熵H(P)最大的模型称为最大熵模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值