改进的迭代尺度算法（IIS）_改进的迭代尺度法-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_42851418/article/details/84109640

本文深入探讨了改进的迭代尺度算法（IIS），一种用于最大熵模型学习的优化方法。详细介绍了算法的核心思想，包括如何通过更新参数向量来最大化对数似然函数，以及在迭代过程中如何求解关键方程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

改进的迭代尺度算法（Improved Iterative Scaling ，IIS）

改进的迭代尺度算法是一种最大熵模型学习的最优化方法，其核心思想是：假设最大熵模型当前的参数向量是 $w$ ，希望找到一个新的参数向量 $w+δw+\delta$ ，使得当前模型的对数似然函数值 $Ψ\Psi$ 增加。重复这一过程，直至找到对数似然函数的最大值。

已知最大熵模型为：
$P_{w}(y|x)=\frac{1}{Z_{w}(x)}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right ) \tag{1}$
其中 $(2)Zw(x)=∑yexp⁡(∑i=1nwifi(x,y))（规范化因子）Z_{w}(x)=\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )（规范化因子）\tag{2}$
$f(x,y)=\left\{\begin{matrix} 1，若 x,y 满足某一事实\\ 0，否则\end{matrix}\right.$
对数似然函数：
$\Psi(w) =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w}(x)\tag{3}$
其中， $∑x,yp~(x,y)=∑xp~(x)\sum_{x,y}\tilde{p}(x,y)=\sum_{x}\tilde{p}(x)$

可以看到 $Ψ≤0\Psi \leq 0$ ，所以， $Ψ(w)=0\Psi(w)=0$ 是最优的。

现在我们需要求的就是使 $Ψ(w)\Psi(w)$ 值最大时所对应的参数 $w$ 的值。

给定特征函数集 ${f_{1},f_{2},...,f_{n}}$ ，最大熵模型（1）和经验分布 $P~(x,y)\tilde{P}(x,y)$ ，下面求 $W^{*}$ ，使得 $W∗=arg⁡max⁡wΨ(w)W^{*}=\arg \max_{w}\Psi(w)$
由定义： $(4)Ψ(w)=∑x,yp~(x,y)log⁡pw(y∣x)\Psi(w)=\sum_{x,y}\tilde{p}(x,y)\log p_{w}(y|x)\tag{4}$

IIS 的想法是：假设最大熵模型当前的参数向量是 $w=(w_{1},w_{2},...,w_{n})^T$ ，我们希望找到一个新的参数向量 $w+δ=(w1+δ1,w2+δ2,,...,wn+δn)Tw+\delta=(w_{1}+\delta_{1},w_{2}+\delta_{2},,...,w_{n}+\delta_{n})^{T}$ ，使得模型的对数似然函数值增大。如果能有一种向量的更新方法： $w:w+δw:w+\delta$ ，那么就可以重复使用这一方法直到找到对数似然函数得最大值。

第一步：

由（4）得，模型参数从 $w$ 到 $w+δw+\delta$ ，对数似然函数得改变量为：
$Ψ(w+δ)−Ψ(w)=由（4）式∑x,yp~(x,y)log⁡pw+δ(y∣x)−∑x,yp~(x,y)log⁡pw(y∣x)=由（3）式∑x,yp~(x,y)∑i=1n(wi+δi)fi(x,y)−∑xp~(x)log⁡Zw+δ(x)−(∑x,yp~(x,y)∑i=1nwifi(x,y)−∑xp~(x)log⁡Zw(x))=∑x,yp~(x,y)∑i=1nδifi(x,y)−∑xp~(x)log⁡Zw+δ(x)Zw(x)\Psi(w+\delta)-\Psi(w)\overset{由（4）式}{=}\sum_{x,y}\tilde{p}(x,y)\log p_{w+\delta}(y|x)-\sum_{x,y}\tilde{p}(x,y)\log p_{w}(y|x)\\ \overset{由（3）式}{=}\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w+\delta}(x)-\left (\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}w_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log Z_{w}(x)\right )\\ =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\log \frac{Z_{w+\delta}(x)}{Z_{w}(x)}$

利用不等式： $−log⁡α≥1−α(α>0)-\log \alpha\geq1-\alpha (\alpha>0)$ ( 由 $x≤ex−1(x>0)⇒log⁡x≤x−1(x>0)x\leq e^{x-1}(x>0)\Rightarrow \log x\leq x-1(x>0)$ 得到上述不等式）

建立对数似然函数改变量的下界：
$\Rightarrow \Psi(w+\delta)-\Psi(w)\geq \sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)-\sum_{x}\tilde{p}(x)\left ( \frac{Z_{w+\delta}(x)}{Z_{w}(x)}-1\right )\\ =\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\frac{Z_{w+\delta}(x)}{Z_{w}(x)}$
对于 $Zw+δ(x)Zw(x)\frac{Z_{w+\delta}(x)}{Z_{w}(x)}$ ，根据 $Zw(x)=∑yexp⁡(∑i=1nwifi(x,y))Z_{w}(x)=\sum_{y}\exp (\sum_{i=1}^{n}w_{i}f_{i}(x,y))$
$\Rightarrow \frac{Z_{w+\delta}(x)}{Z_{w}(x)}=\frac{1}{Z_{w}(x)}\cdot \sum_{y}\exp\left (\sum_{i=1}^{n}(w_{i}+\delta_{i})f_{i}(x,y)\right )\\ =\frac {1}{Z_{w}(x)}\cdot\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)+\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\frac{1}{Z_{w}(x)}\sum_{y}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\sum_{y}\frac{1}{Z_{w}(x)}\exp\left (\sum_{i=1}^{n}w_{i}f_{i}(x,y)\right )\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\\ =\sum_{y}p_{w}(y|x)\cdot \exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )$
将上述式子代入 $Ψ(w+δ)−Ψ(w)\Psi(w+\delta)-\Psi(w)$ 中
$⇒Ψ(w+δ)−Ψ(w)≥∑x,yp~(x,y)∑i=1nδifi(x,y)+1−∑xp~(x)∑ypw(y∣x)exp⁡(∑i=1nδifi(x,y))\Rightarrow\Psi(w+\delta)-\Psi(w)\geq\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )$

将不等式右端记为 $(5)A(δ∣w)=∑x,yp~(x,y)∑i=1nδifi(x,y)+1−∑xp~(x)∑ypw(y∣x)exp⁡(∑i=1nδifi(x,y))A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left (\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right )\tag{5}$
于是
$\Rightarrow\Psi(w+\delta)-\Psi(w)\geq A(\delta|w)$
即 $A(δ∣w)A(\delta|w)$ 是对数似然函数改变量的一个下界。

第二步

现目标是：找到适当的 $δ\delta$ ，使得下界 $A(δ∣w)A(\delta|w)$ 提高，则似然函数也会提高，但 $A(δ∣w)A(\delta|w)$ 是一个 $n$ 维向量，不易于同时优化，IIS 试图一次优化其中一个 $δi\delta_{i}$ ，而固定其它 $δj\delta_{j}$ 不变， $i≠ji\neq j$ 。

注意：
这里的目的就是最大化两次迭代之间的差值。
1.差值的最大值如果小于 0，说明这时已经达到了最大值，在当前位置向任何方向走，对数似然函数都会变小，而我们要求的是极大似然函数，所以已经达到最大的似然函数了，此时的参数即为我们所求的参数。
2.差值如果大于 0，那么我们现在就是要最大化这个差值，这里得到了差值的下界 $A(δ∣w)A(\delta|w)$ ，可以通过不断地最大化此下界，从而得到最大的差值，而最大化下界的方法是：首先对 $A(δ∣w)A(\delta|w)$ 求关于 $δi\delta_{i}$ 的偏导数，并令其为 0，但看这个求出的偏导数：
$\frac{\partial (A(\delta|w))}{\partial \delta_{i}}=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\exp\left(\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)\right)f_{i}(x,y)$
里面含有多个变量，不易同时优化。

因此为达到这一目的并进一步降低下界 $A(δ∣w)A(\delta|w)$ ，IIS 引进一个新的量：
$f#(x,y)=∑ifi(x,y)f^{\#}(x,y)=\sum_{i}f_{i}(x,y)$
因为 $f_{i}(x,y)$ 是一个二值函数，所以 $f^{\#}(x,y)$ 表示所有特征在 $(x, y)$ 出现的次数。
所以（5）式可改写为：
$\Rightarrow A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x）\sum_{y}p_{w}(y|x)\exp\left (f^{\#}(x,y)\sum_{i=1}^{n}\frac {\delta_{i}f_{i}(x,y)}{f^{\#}(x,y)} \right )$
利用指数函数的凸函数性质，及对任意 $i$ ，有 $fi(x,y)f#(x,y)≥0\frac{f_{i}(x,y)}{f^{\#}(x,y)}\geq 0$ 且 $∑i=1nfi(x,y)f#(x,y)=1\sum_{i=1}^{n}\frac{f_{i}(x,y)}{f^{\#}(x,y)}=1$ ，利用詹森不等式：
$\exp\left(\sum_{x}p(x)q(x)\right)\leq\sum_{x}p(x)\exp q(x)$
令 $p(x)=fi(x,y)f#(x,y)p(x)=\frac{f_{i}(x,y)}{f^{\#}(x,y)}$ , $q(x)=δif#(x,y)q(x)=\delta_{i}f^{\#}(x,y)$
$\Rightarrow A(\delta|w)=\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x} \tilde{p}(x)\sum_{y}p_{w}(y|x)\exp \left (\sum_{i=1}^{n}\frac{\delta_{i}f_{i}(x,y)f^{\#}(x,y)}{f^{\#}(x,y)}\right)\tag{6} \\ \geq\sum_{x,y}\tilde{p}(x,y)\sum_{i=1}^{n}\delta_{i}f_{i}(x,y)+1-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)\sum_{i=1}^{n}\left(\frac{f_{i}(x,y)}{f^{\#}(x,y)}\right)\exp({\delta_{i}f^{\#}(x,y)})$
将上述不等式右边记为 $B(δ∣w)B(\delta|w)$ ，则： $Ψ(w+δ)−Ψ(w)≥B(δ∣w)\Psi(w+\delta)-\Psi(w)\geq B(\delta|w)$
这里， $B(δ∣w)B(\delta|w)$ 是对数似然函数改变量的一个新的下界。

第三步

对于新下界 $B(δ∣w)B(\delta|w)$ ，对 $δi\delta_{i}$ 求偏导得（注意：这里是对一项 $δi\delta_{i}$ 求偏导，而非所有 $δ\delta$ ）
$\frac{\partial (B(\delta|w))}{\partial \delta_{i}}=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)-\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))$
其中， $⋅f#(x,y)⋅exp⁡(δif#(x,y))\left(\sum_{i=1}^{n}(\frac {f_{i}(x,y)}{f^{\#}(x,y)})\exp(\delta_{i}f^{\#}(x,y))\right)_{\delta_{i}}^{'}\overset{(\sum a\cdot e^{\delta_{i}b})_{\delta_{i}}^{'}=a b\cdot e^{\delta_{i}b}}{=}\frac{f_{i}(x,y)}{f^{\#}(x,y)~}\cdot f^{\#}(x,y)\cdot \exp(\delta_{i}f^{\#}(x,y))$

这里，偏导数 $∂(B(δ∣w))∂δi\frac{\partial (B(\delta|w))}{\partial \delta_{i}}$ 中除 $δi\delta_{i}$ 以外，不含任何其他变量，令 $∂(B(δ∣w))∂δi=0\frac{\partial (B(\delta|w))}{\partial \delta_{i}}=0$
$\Rightarrow\sum_{x}\tilde{p}(x)\sum_{y}p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=\sum_{x,y}\tilde{p}(x,y)f_{i}(x,y)\\ \Rightarrow \sum_{x,y}\tilde{p}(x)p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=E_{\tilde{p}}(f_{i})\tag{7}$
依次对 $δi\delta_{i}$ 求解方程（7），从而求出 $δ\delta$ ，这样就可以 $W^{*}=(w_{1},w_{2},...,w_{n})$ 的值进行更新了。

算法描述

改进的迭代尺度算法IIS

输入：特征函数 $f_{1},f_{2},..,{f_{n}}$ ；经验分布函数 $p~(X,Y)\tilde{p}(X,Y)$ ，模型 $P_{w}(y|x)$ ；
输出：最优参数值 $w^{*}$ ；最优模型 $P_{w^{*}}$ 。

（1）对所有 $\in \left \{ 1,2,...,n\right \}$ ，取初值 $w_{i}=0$ ；
（2）对每一个 $\in \left \{ 1,2,...,n\right \}$ ：

（a）令 $δi\delta_{i}$ 是方程 $∑x,yp~(x)pw(y∣x)fi(x,y)exp⁡(δif#(x,y))=Ep~(fi)\sum_{x,y}\tilde{p}(x)p_{w}(y|x)f_{i}(x,y)\exp(\delta_{i}f^{\#}(x,y))=E_{\tilde{p}}(f_{i})$ 的解，这里， $f#(x,y)=∑if(x,y)f^{\#}(x,y)=\sum_{i}f_{}(x,y)$
（b）更新 $w_{i}$ 值： $wi→wi+δiw_{i}\rightarrow w_{i}+\delta_{i}$

（3）如果不是所有的 $w_{i}$ 都收敛，重复（2）。

这一算法关键是（a），即求解方程（7）中的 $δi\delta_{i}$ 。
如果 $f^{\#}(x,y)$ 是常数，即对任何 $x, y$ 有 $f^{\#}(x,y)=M$ ，那么 $δi\delta_{i}$ 可以显示地表示成 $δi=1Mlog⁡Ep~(fi)Ep(fi)\delta_{i}=\frac{1}{M}\log\frac{E_{\tilde{p}}(f_{i})}{E_{p}(f_{i})}$ ；
如果 $f^{\#}(x,y)$ 不是常数，那么必须通过数值计算求 $δi\delta_{i}$ 。
（注意：这里 $f^{\#}$ 是 $f$ 的加权和，为什么 $f^{\#}$ 可能不为常数呢？因为离线训练中是常数，在线训练（增量式训练样本）中就不是常数。）

简单有效的方法是：牛顿法。以 $g(δi)=0g(\delta_{i})=0$ 表示方程（7），牛顿法通过迭代求得 $δi∗\delta_{i}^{*}$ ，使得 $g(δi∗)=0g(\delta_{i}^{*})=0$
迭代公式为：
$\delta_{i}^{({k+1})}=\delta_{i}^{(k)}-\frac{g(\delta_{i}^{(k)})}{g^{'}(\delta_{i}^{(k)})}$
只要适当选取初始值 $δi(0)\delta_{i}^{(0)}$ ，由于 $δi\delta_{i}$ 的方程（7）有单根，因此牛顿法恒收敛，而且收敛的速度很快。