李航 统计学习方法 第六章 逻辑斯谛回归与最大熵模型
逻辑斯谛回归模型
设XXX是连续随机变量, XXX服从逻辑斯谛分布是指XXX具有下列分布函数和密度函数:
F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}F(x)=P(X≤x)=1+e−(x−μ)/γ1
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x)=F^{\prime}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
逻辑斯谛曲线在中心附近增长较快, 在两端增长速度较慢, 形状参数γ\gammaγ的值越小, 曲线在中心附近增长得越快.
二项逻辑斯谛回归模型
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y∣X)P(Y|X)P(Y∣X)表示, 形式为参数化的逻辑斯谛分布.随机变量XXX取值为实数, 随机变量YYY取值为1或0.通过监督学习的方法来估计模型参数.
对于给定的输入实例xxx,按照
P(Y=1∣x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=1|x)=\frac{exp(w\cdot x + b)}{1 + exp(w\cdot x + b)}P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)和P(Y=0∣x)=11+exp(w⋅x+b)P(Y=0|x)=\frac{1}{1 + exp(w\cdot x + b)}P(Y=0∣x)=1+exp(w⋅x+b)1,比较两个条件概率值的大小, 将实例xxx分到概率值较大的那一类.考察逻辑斯谛回归模型的特点, 一个事件的几率, 是指该事件发生的概率和该事件不发生的概率的比值.如果事件发生的概率是ppp, 那么该事件的几率就是p1−p\frac{p}{1-p}1−pp, 该事件的对数几率或logit函数是logit(p)=logp1−plogit(p)=\log\frac{p}{1-p}logit(p)=log1−pp,对逻辑斯谛回归而言, logP(Y=1∣x)1−P(Y=1∣x)=w⋅x\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot xlog1−P(Y=1∣x)P(Y=1∣x)=w⋅x.在逻辑斯谛回归模型中, 输出Y=1Y=1Y=1的对数几率是输入的线性函数.换一个角度, 考虑对输入xxx进行分类的线性函数w⋅xw\cdot xw⋅x,其值域为实数域.可以将线性函数w⋅xw\cdot xw⋅x转换成概率:P(Y=1∣x)=exp(w⋅x)1+exp(w⋅x)P(Y=1|x)=\frac{exp(w\cdot x)}{1 + exp(w\cdot x)}P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)此时, 线性函数的值接近正无穷, 概率值接近1.
模型参数估计
逻辑斯谛回归模型学习时, 对于给定的训练数据集, 可以应用极大似然估计法去估计模型参数.设:P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x), 似然函数是∏i=1N[π(xi)]yi[1−π(xi)]1−yi\prod\limits^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}i=1∏N[π(xi)]yi[1−π(xi)]1−yi对数似然函数为L(w)=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]L(w)=\sum\limits^N_{i=1}[y_i(w\cdot x_i)-\log(1+exp(w\cdot x_i))]L(w)=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))], 对L(w)L(w)L(w)求极大值, 得到www的估计值.问题变成了以对数似然函数为目标函数的最优化问题, 逻辑斯谛回归学习中通常采用的方法是梯度下降法和拟牛顿法
多项逻辑斯谛回归
上面介绍的逻辑斯谛回归模型是二项分类模型, 用于二项分类, 可以将其推广为多项逻辑斯谛回归模型, 用于多类分类. 假设离散型随机变量YYY的取值集合是{1,2,...,K}\{1, 2, ..., K\}{1,2,...,K}, 那么多项式逻辑斯蒂回归模型是P(Y=k∣x)=exp(wk⋅x)1+∑k=1K−1exp(wk⋅x)P(Y=k|x)=\frac{exp(w_k\cdot x)}{1 + \sum\limits^{K-1}_{k=1}exp(w_k\cdot x)}P(Y=k∣x)=1+k=1∑K−1exp(wk⋅x)exp(wk⋅x), P(Y=K∣x)=11+∑k=1K−1exp(wk⋅x)P(Y=K|x)=\frac{1}{1 + \sum\limits^{K-1}_{k=1}exp(w_k\cdot x)}P(Y=K∣x)=1+k=1∑K−1exp(wk⋅x)1, 二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归.
最大熵模型
由最大熵原理推到实现, 首先叙述一般的最大熵原理, 然后讲解最大熵模型的推导, 最后给出最大熵模型学习的形式.
最大熵原理
最大熵是概率模型学习的一个准则, 最大熵原理任务, 学习概率模型时, 在所有可能的概率模型中, 熵最大的模型也是最好的模型, 通常用约束条件来确定概率模型的集合, 所以, 最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型.
假设离散随机变量XXX的概率分布是P(X)P(X)P(X),则其熵是H(P)=−∑xP(x)logP(x)H(P)=-\sum\limits_x P(x)\log P(x)H(P)=−x∑P(x)logP(x), 熵满足下列不等式0≤H(P)≤log∣X∣0\leq H(P) \leq\log|X|0≤H(P)≤log∣X∣其中的∣X∣|X|∣X∣是XXX的取值个数, 当且仅当XXX的分布是均匀分布时右边的等号成立, 也就是说, 当XXX服从均匀分布时, 熵最大.
最大熵原理认为在没有更多信息的前提下, 不确定的部分都是等可能的, 最大熵原理通过熵的最大化来表示等可能性, 等可能性不容易操作, 而熵是一个可优化的数值指标.
最大熵模型的定义
假设分类模型是一个条件概率分布P(Y∣X)P(Y|X)P(Y∣X), X∈XX\in\mathcal{X}X∈X表示输入, Y∈YY\in\mathcal{Y}Y∈Y表示输出, 这个模型表示的是对给定的输入XXX, 以条件概率P(Y∣X)P(Y|X)P(Y∣X)输出YYY.
给定一个训练数据集, 希望通过最大熵原理选择最好的分类模型.
首先考虑模型应该满足的条件, 给定训练数据集, 可以确定联合分布P(X,Y)P(X,Y)P(X,Y)的经验分布和边缘分布P(X)P(X)P(X)的经验分布, 分别以P(X,Y)~\tilde{P(X, Y)}P(X,Y)~和P(X)~\tilde{P(X)}P(X)~表示, 用特征函数f(x,y)f(x, y)f(x,y)描述输入xxx和输出yyy之间的某一个事实.它是一个二值函数, 特征函数f(x,y)f(x, y)f(x,y)关于经验分布P(X,Y)~\tilde{P(X,Y)}P(X,Y)~的期望值, 特征函数f(x,y)f(x,y)f(x,y)关于模型与经验分布的期望值用Ep(f)E_p(f)Ep(f)表示EP~(f)=∑x,yP~(x,y)f(x,y)E_{\tilde{P}}(f)=\sum\limits_{x,y}\tilde{P}(x, y)f(x, y)EP~(f)=x,y∑P~(x,y)f(x,y), 同时有EP(f)=∑x,yP~(x)P(y∣x)f(x,y)E_P(f)=\sum\limits_{x,y}\tilde{P}(x)P(y|x)f(x, y)EP(f)=x,y∑P~(x)P(y∣x)f(x,y)如果模型能够获取训练数据中的信息, 那么可以假设两个期望值相等, 将这个关系作为模型的约束条件, 加入有nnn个特征函数fi(x,y)f_i(x, y)fi(x,y), 就有nnn个约束条件.
假设满足所有约束条件的模型集合为
本文深入解析了逻辑斯谛回归模型,包括其连续变量的逻辑斯谛分布特性,二项逻辑斯谛回归在分类中的应用,以及模型参数的极大似然估计。后续介绍了如何通过最大熵原理构建分类模型,探讨了最大熵模型的推导和训练方法。
817

被折叠的 条评论
为什么被折叠?



