极大熵模型和逻辑回归的等价性

最新推荐文章于 2024-06-06 22:45:33 发布

windows2

最新推荐文章于 2024-06-06 22:45:33 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习最大熵模型逻辑回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/windows2/article/details/12108223

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文探讨了极大熵模型和逻辑回归之间的等价性。通过形式化定义极大熵模型，并将其转化为无约束拉格朗日问题，最终得出与多类别逻辑回归相同的形式。同时，文章引用了不同资源，解释了在多类别逻辑回归中如何使用IIS算法求解复杂优化问题，并指出特征函数的选择与不同领域的应用约束有关。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

极大熵模型的形式化定义是这样的，

其中第一个约束条件展开来就是(6.11)，表示对于特征函数的期望

接下来把这个约束优化问题转换成无约束拉格朗日问题，再求解对偶问题，

令偏导数=0，获取P(y|x)的形式为

Z为归一化因子。注意到此形式和多类别的逻辑回归等同。

以上来源为李航的《统计机器学习》，但是有一些问题他没有讲的很明白

在http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf点击打开链接中，

它由logistic regression的形式（exp(wx)/Z）出发，对其求极大似然估计，即对其似然函数对w_y0,j求偏导，令偏导为0

证明logistic regression的最优解需要满足约束（对任意j=0,...,n-1; y0=0,...k-1）

其中xi是第i个train data的向量，xij表示xi的第j个维度

可以看到这个形式和极大熵的第1个约束很相似

对极大熵模型，如果定义这样一组特征，其中j表示取出x的第j个分量，y0表示仅对类别为y0取值，别的都取0

f_j,y0(x,y) = xj (当y==y0)

= 0 （当y!=y0）

j=0,...,n-1; y0=0,...k-1

它的约束条件就等于对应的logit regression，所以二者等价。

PS1:在2类别的逻辑回归中，因为形式简单，可以直接用梯度法把w算出来，但是在多类别中，Z的形式是一堆指数的和，求导会很复杂，梯度法就很难用

于是用IIS来求解，IIS的思想是利用exp，log等函数的凸性质，把指数的和，和的指数这种复杂的形式，简化成比如线性函数这种简单好求解的形式，找到梯度的近似下界

然后用这个近似下界替代掉梯度，沿着下界最大的方向进行优化。

PS2:李航的推导,貌似来自Berger的《A Maximum Entropy Approach to Natural Language Processing》中，

在这篇paper中，定义的fi(x,y)是某种x,y条件下的指示函数，也就是说，值域是0/1。

其实这是NLP问题特有的约束，fi(x,y)在别的问题中不受这个约束,取别的特征统计量

另外，x只是observasion的一个表示，不是特征，f(x,j) 才相当于我们在别的分类器里用的特征

比如在http://www.ryanmcd.com/courses/gslt2007/gslt2007.pdf点击打开链接的第10页，他给了个例子：

x is a document and y is a label

fj(x,y) = num of words in x with punctuation and y =“scientific”

在这里fj(x,y)相当于文本分类里常用的tf。类似的，也可以用tf*idf定义

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。