高级逻辑回归方法解析
1. 对偶逻辑回归
传统逻辑回归模型存在一个潜在问题:在原始线性模型中,梯度向量的每个元素对应观测数据 $x$ 的一个维度;在非线性扩展中,对应转换数据 $z$ 的一个维度。若数据 $x$(或 $z$)是高维的,模型会有大量参数,这会使牛顿更新变慢甚至难以处理。
为解决此问题,我们采用对偶表示。在对偶参数化中,梯度参数表示为观测数据的加权和:
$\nabla_{\mathbf{w}} \log p(\mathbf{w}|\mathbf{X},\psi) = \sum_{i=1}^{I} \psi_i \mathbf{x}_i$
其中 $\psi$ 是一个 $I \times 1$ 的变量,每个元素对一个数据示例进行加权。若数据点数量小于数据 $x$ 的维度 $D$,参数数量会减少。
对偶逻辑回归的学习和推理算法与原始逻辑回归模型类似:
- 最大似然法 :使用牛顿法对对数似然函数 $L = \log[Pr(\mathbf{w}|\mathbf{X},\psi)]$ 进行非线性优化,学习参数 $\psi$,这需要对数似然函数的导数。
- 贝叶斯方法 :对参数 $\psi$ 使用正态先验分布。通过贝叶斯规则找到新参数的后验分布 $Pr(\psi|\mathbf{X}, \mathbf{w})$,由于其不能写成闭式形式,应用拉普拉斯近似。使用非线性优化找到 MAP 解,需对数后验 $L = \log[Pr(\psi|\mathbf{X}, \mathbf{w})]$ 的导数。后验现在近似为多元正态分布。
对偶逻辑回归在最大似然情况下
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



