对数线性模型、最大熵马尔科夫模型和条件随机场(翻译) 一

本文深入探讨了对数线性模型,详细介绍了其在自然语言处理中的应用,包括符号约定、模型定义、参数估计及正则化策略,强调了在高维场景下正则化的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 符号

整篇文章里,使用下划线表示向量,例如ω‾∈Rd\underline\omega\in \mathbb{R}^dωRd是由ω1,ω2,…ωd\omega_1,\omega_2,\dots\omega_dω1,ω2,ωd
组成的向量。exp(x)=exexp(x)=e^xexp(x)=ex

2.对数线性模型

    给定两个集合X\mathcal{X}XY\mathcal{Y}Y,假设Y\mathcal{Y}Y是有限集合,我们的目标是构建一个可以估计给定一个输入x\mathcal{x}x得到标签y\mathcal{y}y的条件概率p(y∣x)\mathcal{p}(\mathcal{y}|\mathcal{x})p(yx)的模型。例如,x\mathcal{x}x可以是一个单词,y\mathcal{y}y是这个单词的词性(名词、动词、介词等)。我们定义函数ϕ‾:X×Y→Rd\underline\phi:\mathcal{X}\times\mathcal{Y}\rightarrow\mathbb{R}^dϕ:X×YRd,同时假设参数向量ω‾∈Rd\underline\omega \in \mathbb{R}^dωRd,在这些假设下对数线性模型可以表示为
p(y∣x)=exp(ω‾⋅ϕ‾(x,y))∑y′∈Yexp(ω‾⋅ϕ‾(x,y′)) \mathcal{p}(\mathcal{y}|\mathcal{x})=\frac{exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}))}{\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}^\prime))} p(yx)=yYexp(ωϕ(x,y))exp(ωϕ(x,y))
这就是在参数ω‾\underline\omegaω下,给定x\mathcal{x}x条件y\mathcal{y}y的概率。

使用这个表达式来表示这个模型的原因如下。内积ω‾⋅ϕ‾(x,y)\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})ωϕ(x,y)可以是任意值(正的或者负的),可以解释为给定输入x\mathcal{x}x标签是y\mathcal{y}y的合理性度量。对每个给定的输入x\mathcal{x}x,我们可以对每个可能的标签y∈Y\mathcal{y}\in\mathcal{Y}yY计算这个内积。我们可以将这些量转换为一个定义良好的概率分布p(y∣x)\mathcal{p}(\mathcal{y}|\mathcal{x})p(yx)。如果对内积取幂,exp(ω‾⋅ϕ‾(x,y))exp(\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y}))exp(ωϕ(x,y)),就得到了一个严格正的量,最后除以一个标准化常数∑y′∈Yexp(ϕ‾(x,y′))\sum_{\mathcal{y}^\prime\in\mathcal{Y}}exp(\underline\phi(\mathcal{x},\mathcal{y}^\prime))yYexp(ϕ(x,y)),这确保了∑y∈Yp(y∣x;ω‾)\sum_{\mathcal{y}\in\mathcal{Y}}{\mathcal{p}(\mathcal{y}|x;\underline\omega)}yYp(yx;ω)。这样我们就将可正可负的内积ω‾⋅ϕ‾(x,y)\underline\omega\cdot\underline\phi(\mathcal{x},\mathcal{y})ωϕ(x,y)变成了一个概率分布。

一个重要的问题是我们怎样从数据估计出参数ω‾\underline\omegaω。接下来我们讨论这个问题。

对数似然函数。为了估计这个参数,假设我们有n组打好标签的样本,{xi,yi}i=1n\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n{xi,yi}i=1n。似然函数就是
L(ω‾)=∑i=1nlog⁡p(yi∣xi;ω‾)\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega)L(ω)=i=1nlogp(yixi;ω)

L(ω‾)\mathcal{L}(\underline\omega)L(ω)是对给定的ω‾\underline\omegaω解释这些样本的一个度量,一个好的ω‾\underline\omegaω应该会给每个p(yi∣xi;ω‾)i=1…2\mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) \quad i=1\dots 2p(yixi;ω)i=12 赋予一个较大的值,从而使L(ω‾)\mathcal{L}(\underline\omega)L(ω)也较大。

最大似然估计是
ω‾∗=arg max⁡ω‾∈Rd∑i=1nlog⁡p(yi∣xi;ω‾) \underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d} \sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) ω=argωRdmaxi=1nlogp(yixi;ω)

最大似然估计是在L(ω‾)\mathcal{L}(\underline\omega)L(ω)评判标准下,求出对训练集拟合最好的参数的一种方法。

找出最大似然估计。给定训练集{xi,yi}i=1n\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n{xi,yi}i=1n,我们怎样找出最大似然参数估计ω‾∗\underline\omega^*ω呢?不幸的是,解析解在一般情况下并不存在,通常使用基于梯度的方法来最优化L(ω‾)\mathcal{L}(\underline\omega)L(ω)。最简单的方法就是梯度上升法,大致使用如下步骤:

  1. 初始化ω‾0\underline\omega^0ω0,比如设ω‾j0j=1…d\underline\omega_j^0\quad j=1\dots dωj0j=1d

  2. For t=1…T:

    • For j=1…d:
      ωjt=ωjt−1+αt×∂∂ωjL(ω‾t−1) \omega_j^t=\omega_j^{t-1}+\alpha_t\times \frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1}) ωjt=ωjt1+αt×ωjL(ωt1)
      其中αt\alpha_tαt是学习率,∂∂ωjL(ω‾t−1)\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega^{t-1})ωjL(ωt1)L\mathcal{L}L相对于ωj\omega_jωj的偏导数。
  3. 返回最终的参数ω‾T\underline\omega^TωT

实践中,有更多精妙的最优化方法可以使用:一个共同的选择是使用L-BFGS(一种拟牛顿法),这里就不去探究这种方法的细节了。好消息是很多软件的L-BFGS是直接可用的,实现L-BFGS需要我们计算目标函数L(ω‾)\mathcal{L}(\underline\omega)L(ω),和它的偏导数∂∂ωjL(ω‾)\frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)ωjL(ω)。所幸,这很容易计算:

∂∂ωjL(ω‾)=∑iϕj(xi,yi)−∑i∑yp(y∣xi;ω‾)ϕj(xi,y) \frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y) ωjL(ω)=iϕj(xi,yi)iyp(yxi;ω)ϕj(xi,y)

第一个求和项∑iϕj(xi,yi)\sum_i\phi_j(x_i,y_i)iϕj(xi,yi),将所有样本{xi,yi}i=1n\{\mathcal{x}_i,\mathcal{y}_i\}_{i=1}^n{xi,yi}i=1n的第j个特征ϕj(xi,yi)\phi_j(x_i,y_i)ϕj(xi,yi)求和。第二个求和项对所有样本的第j个特征的期望∑yp(y∣xi;ω‾)ϕj(xi,y)\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)yp(yxi;ω)ϕj(xi,y)求和。

正则化对数似然函数。在很多应用,在对数似然函数中加上额外的正则项是非常有好处的。修改后的函数变为:

L(ω‾)=∑i=1nlog⁡p(yi∣xi;ω‾)−λ2∣∣ω‾∣∣2\mathcal{L}(\underline\omega)=\sum_{i=1}^n \log \mathcal{p}(\mathcal{y}_i|\mathcal{x}_i;\underline\omega) - \frac{\lambda}{2}||\underline\omega||^2L(ω)=i=1nlogp(yixi;ω)2λω2

这里∣∣ω‾∣∣2=∑iωi2||\underline\omega||^2=\sum_i \omega_i^2ω2=iωi2,λ\lambdaλ是一个超参数,决定正则项的强度。还是和上面一样,我们所求的参数为:

ω‾∗=arg max⁡ω‾∈RdL(ω‾) \underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega) ω=argωRdmaxL(ω)
此时,在估计参数时有一个权衡取舍,我们想使log⁡p(yi∣xi;ω‾)\log p(y_i|x_i;\underline\omega)logp(yixi;ω)尽量大,但同时还要保持范数∣∣ω‾∣∣2||\underline\omega||^2ω2尽量小(λ\lambdaλ越大,则我们希望范数越小)。正则项惩罚大的参数值。

直觉上,我们可以认为正则项是对复杂模型的一个惩罚,参数越大,模型越复杂。我们想要寻找可以很好拟合样本的模型,但我们也不想模型过于复杂(过拟合)

在实践中,往对数线性模型添加正则项是非常有用的。特别是在d很大时,这种场景在自然语言处理程序中是非常常见的,甚至d比训练样本数n还大的情况也存在,在这些情况下只要添加正则项惩罚大的参数值,我们还是可以获得较好的泛化性能。

寻找最优化参数
ω‾∗=arg max⁡ω‾∈RdL(ω‾)\underline\omega^*= arg\,\max_{\underline\omega\in\mathbb{R}^d}\mathcal{L}(\underline\omega)ω=argmaxωRdL(ω)还是可以使用基于梯度的方法,只需稍微修改偏导数公式为:

∂∂ωjL(ω‾)=∑iϕj(xi,yi)−∑i∑yp(y∣xi;ω‾)ϕj(xi,y)−λωj \frac{\partial}{\partial\omega_j}\mathcal{L}(\underline\omega)= \sum_i\phi_j(x_i,y_i)-\sum_i\sum_yp(y|x_i;\underline\omega)\phi_j(x_i,y)-\lambda\omega_j ωjL(ω)=iϕj(xi,yi)iyp(yxi;ω)ϕj(xi,y)λωj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值