非归一化统计模型的噪声对比估计（NCE，Noise-Contrastive Estimation）（一）

最新推荐文章于 2025-10-17 16:32:36 发布

翻译最新推荐文章于 2025-10-17 16:32:36 发布 · 8.5k 阅读

Statistics 专栏收录该内容

5 篇文章

订阅专栏

1、介绍

本文介绍一种“参数化密度函数”的估计方法。

设样本 $X=(\boldsymbol{x}_1,...,\boldsymbol{x}_{T_d})$ 服从一个未知的概率密度函数（pdf） $p_d$ ，其中 $\vec{x}\in \mathbb{R}^n$ 。 $p_d$ 使用参数化函数族 $\{p_m(.;\boldsymbol{\theta})\}$ 来模拟，其中 $\boldsymbol{\theta}$ 为参数向量。通常假设 $p_d$ 属于这一函数族，即 $p_d(.)=p_m(.;\boldsymbol{\theta}^*)$ 。 $\boldsymbol{\theta}^*$ 的任何估计 $\hat{\boldsymbol{\theta}}$ 必须满足如下两个限制条件：

$\int{p_m(\boldsymbol{u};\boldsymbol{\hat{\boldsymbol{\theta}}})} =1,\qquad p_m(.;\hat{\boldsymbol{\theta}})\geqslant 0 \qquad (1)$

如果对于所有 $\boldsymbol{\theta}$ 来说（不只是 $\hat{\boldsymbol{\theta}}$ ）， $p_m(.;\boldsymbol{\theta})$ 都满足上述两个限制条件，则称模式为“归一化的”，最大似然方法可以用来估计 $\boldsymbol{\theta}$ 。如果 $p_m(.;\boldsymbol{\theta})$ 仅满足非负的条件而不满足正则化的条件，则称模型为“非归一化的”。设模型 $p^0_m(.;\boldsymbol{\alpha})$ 非归一化，分区函数 $Z(\boldsymbol{\alpha})$ 为

$Z(\boldsymbol{\alpha})=\int{p^0_m(\boldsymbol{u};\boldsymbol{\alpha})}d\boldsymbol{u} \qquad(2)$

分区函数可以用来将非归一化模型 $p^0_m(.;\boldsymbol{\alpha})$ 转化为归一化模型： $p^0_m(.;\boldsymbol{\alpha})/Z(\boldsymbol{\alpha})$ 。本文中，我们提出一种新的估计非归一化模型的方法。主要思想是将 $Z$ ，或者 $c = ln1/Z$ 不再视为 $\boldsymbol{\alpha}$ 的一个函数，而是模型的附加参数。即

$\ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c$

这里 $\boldsymbol{\theta}=(\boldsymbol{\alpha},c)$ 。估计 $\hat{\boldsymbol{\theta}}=(\hat{\boldsymbol{\alpha}},\hat{c})$ 使得 $p^0_m(.;\hat{\boldsymbol{\alpha}})$ 的形状和 $p_d$ 的相同，而 $\hat{c}$ 的作用是对其进行缩放，这样式（1）就成立了。

2、噪声对比估计（NCE，Noise-Contrastive Estimation）

2.1 通过对比来估计概率密度函数

设“参考（噪声）样本”为 $Y=(\boldsymbol{y}_1,...,\boldsymbol{y}_{T_n})$ ，其中 $\boldsymbol{y}_i\in\mathbb{R}^n$ ，该样本服从概率密度函数 $p_n$ ，样本 $X$ 可以由比值 $p_d/p_n$ 来对比描述。若 $p_n$ 和 $p_d/p_n$ 已知的话，我们可以由它们来获取 $p_d$ 。

设 $U=(\boldsymbol{u}_1,..., \boldsymbol{u}_{T_d+T_n}, )$ 为 $X$ 和 $Y$ 的合并，我们给 $U$ 中的每一个元素 $\boldsymbol{u}_t$ 分配一个类别标签 $C_t$ ，如果 $\boldsymbol{u}_t\in X$ ，则 $C_t=1$ ，如果 $\boldsymbol{u}_t\in Y$ ，则 $C_t=0$ 。我们用 $p_m(.;\boldsymbol{\theta})$ 来模拟 $p(.|C=1)$ ，则条件概率密度函数为

$p(\boldsymbol{u}|C_t=1;\boldsymbol{\theta})=p_m(\boldsymbol{u};\boldsymbol{\theta}), \qquad \qquad p(\boldsymbol{u}|C=0)=p_n(\boldsymbol{\boldsymbol{u}})$

先验概率为 $P(C=1)=T_d/(T_d+T_n), \quad P(C=0)=T_n/(T_d+T_n)$ ，后验概率为

$P(C=1|\boldsymbol{u};\boldsymbol{\theta})=\frac{p_m(\boldsymbol{u};\boldsymbol{\theta})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})}, \quad P(C=0|\boldsymbol{u};\boldsymbol{\theta})=\frac{vp_n(\boldsymbol{u})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})} \qquad \qquad (3)$

其中 $v=P(C=0)/P(C=1)=T_n/T_d$ 。令 $h(\boldsymbol{u};\boldsymbol{\theta})=P(C=1|\boldsymbol{u};\boldsymbol{\theta})$ 。设

$G(\boldsymbol{u};\boldsymbol{\theta})=\ln p_m(\boldsymbol{u};\boldsymbol{\theta})-\ln p_n(\boldsymbol{u}) \qquad \qquad \qquad \qquad \qquad (4)$

则

$h(\boldsymbol{u};\boldsymbol{\theta})=r_v(G(\boldsymbol{u};\boldsymbol{\theta})) \qquad \qquad \qquad \qquad \qquad \qquad \qquad (5)$

其中

$r_v(u)=\frac{1}{1+v\exp{(-u)}} \qquad \qquad \qquad \qquad \qquad \qquad \qquad (6)$

则似然函数为

$l(\boldsymbol{\theta})=\sum_{t=1}^{T_d+T_n}{C_t\ln{P(C_t=1|\boldsymbol{u}_t;\boldsymbol{\theta})}+(1-C_t)\ln{P(C_t=0|\boldsymbol{u}_t;\boldsymbol{\theta})}} \\ \qquad =\sum_{t=1}^{T_d}{\ln{[h( \boldsymbol{x}_t;\boldsymbol{\theta})]}}+\sum_{t=1}^{T_n}{\ln[{1-h(\boldsymbol{y}_t;\boldsymbol{\theta})}]} \qquad \qquad \qquad (7)$

2.2 估计器的定义

在1中，我们介绍了 $\ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c$ ，其中 $\boldsymbol{\theta}=(\boldsymbol{\alpha}, c)$ ， $c$ 用来放缩非归一化模型 $p^0_m(.;\boldsymbol{\alpha})$ ，这样式（1）能够成立。 $c$ 的估计值 $\hat{c}$ 是对 $\ln{1/Z(\hat{\boldsymbol{\alpha}})}$ 的一个估计。估计器 $\hat{\boldsymbol{\theta}}_T$ 能够使

$J_T(\boldsymbol{\theta})=\frac{1}{T_d}\left \{ \sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + \sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \right \} \qquad \qquad (8)$

达到最大，上式也可以写为

$J_T(\boldsymbol{\theta})=\frac{1}{T_d}\sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + v\frac{1}{T_n}\sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \qquad \qquad (9)$

注意 $h(.;\boldsymbol{\theta})\in (0,1)$ ，当 $G(.;\boldsymbol{\theta})\rightarrow -\infty$ 时， $h(.;\boldsymbol{\theta})$ 达到0，当 $G(.;\boldsymbol{\theta})\rightarrow \infty$ 时， $h(.;\boldsymbol{\theta})$ 达到1。 $J_T$ 的上界为0，对于所有 $t$ ，当 $h(\boldsymbol{x}_t;\boldsymbol{\theta})$ 和 $h(\boldsymbol{y}_t;\boldsymbol{\theta})$ 分别趋近于1和0时， $J_T$ 能达到上界。因此最优估计参数 $\hat{\boldsymbol{\theta}}_T$ 使得“对于所有 $\boldsymbol{u}_t \in X$ ， $G(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)$ 尽可能的大；对于所有 $\boldsymbol{u}_t \in X$ ， $G(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)$ 尽可能的小”。

2.3 估计器的特征

我们刻画当样本量 $T_d$ 很大，并且比值 $v$ 固定时的估计器 $\hat{\boldsymbol{\theta}}_T$ 的特征。根据弱大数定理，当 $T_d$ 趋近于无穷大时， $J_T(\boldsymbol{\theta})$ 依概率收敛于 $J$ ， $J$ 为

$J(\boldsymbol{\theta})=E\left\{\ln{[h(\boldsymbol{x};\boldsymbol{\theta})]} \right\} + vE\left\{\ln{[1-h(\boldsymbol{y};\boldsymbol{\theta})]} \right\} \qquad \qquad \qquad (10)$

设 $f_m(.)=\ln{p_m(.;\boldsymbol{\theta})}$ ，我们把“将 $J$ 视为 $f_m(.)$ 的函数”后的目标函数表示为 $\widetilde{J}(f_m)$ ，即

$\widetilde{J}(f_m)=E\left\{\ln{[ r_v(f_m(\boldsymbol{x}) - \ln{p_n(\boldsymbol{x})}) ]} \right\} + vE\left\{\ln{[1- r_v(f_m(\boldsymbol{y})-\ln{p_n(\boldsymbol{y})})]} \right\} \qquad \qquad \qquad (11)$

下面的定理显示，概率密度函数 $p_d$ 可以通过最大化 $\widetilde{J}$ 来获得，即在拥有无穷多数据的理想条件下，学习一个非参数分类器。

定理1（非参数估计） $\widetilde{J}$ 在 $f_m=\ln{p_d}$ 时达到最大。噪声密度函数 $p_n$ 一旦确定， $\widetilde{J}$ 的最大值也就唯一确定， $p_n$ 在 $p_d$ 取值大于零的地方也大于零。

目标函数 $\widetilde{J}$ 具有在“不限定 $\exp{(f_m)}$ 的积分值为1”的条件下，其最大值对应的概率密度函数 $\exp{(f_m)}$ 的积分值自动为1。 $p_n$ 大于零的条件告诉我们，在没有对比噪声样本的空间， $p_d$ 无法被估计出来。

通常假定存在 $\boldsymbol{\theta}^*$ ，使得 $p_d(.)=p_m(.;\boldsymbol{\theta}^*)$ 。

定理2（一致性）如果下面的（a）到（b）都满足了，则 $\hat{\boldsymbol{\theta}}_T$ 依概率收敛于 $\boldsymbol{\theta}^*$ ， $\hat{\boldsymbol{\theta}}_T\overset{P}{\rightarrow} \boldsymbol{\theta}^*$ 。

（a） $p_n$ 在 $p_d$ 取值大于零的地方也大于零；

（b） $\sup_{\boldsymbol{\theta}}{|J_T(\boldsymbol{\theta})-J(\boldsymbol{\theta})|}\overset{P}{\rightarrow}0$

（c）矩阵 $\mathbb{I}_v=\int{g(\boldsymbol{u})g(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ 满秩，其中

$\boldsymbol{g}(\boldsymbol{u})=\nabla_{\boldsymbol{\theta}}{\ln{p_m(\boldsymbol{u};\boldsymbol{\theta})}}|_{\boldsymbol{\theta}^*}, \qquad \qquad P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}$

上式中条件（b）表示要求 $J_T(\boldsymbol{\theta})$ 在 $\boldsymbol{\theta}$ 的取值集合上，依概率收敛于 $J(\boldsymbol{\theta})$ 。

定理3（渐近正态性） $\sqrt{T_d}(\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*)$ 为渐近正态分布的，其均值为0，协方差为 $\Sigmoid$ $\Sigma$ ，其中

$\Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}$

而 $E(P_v\boldsymbol{g})=\int{P_v(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ 。

推论1 对于大样本 $T_d$ ，均方误差 $E\left(\left \| \hat{\boldsymbol{\theta}}_T- \boldsymbol{\theta}^*\right \|^2 \right )$ 等于 $tr(\Sigma)/T_d$ 。

2.4 选择噪声

定理2显示，对于给定的训练样本量 $T_d$ ，当噪声样本量 $T_n$ 越来越大时， $v$ 也越来越大， $P_v$ 趋近于1。这说明，对于较大的 $v$ ，协方差矩阵 $\Sigma$ 不依赖于噪声分布 $p_n$ 。于是我们有如下定理。

推论2 当 $v\rightarrow \infty$ 时， $\Sigma$ 不受 $p_n$ 选择的影响，

$\Sigma=\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^T\mathbb{I}^{-1}$

其中 $E(\boldsymbol{g})=\int{\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ ， $\mathbb{I}=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^T}p_d(\boldsymbol{u})d\boldsymbol{u}$ 。

由推论2知，当 $v\rightarrow \infty$ 时，估计误差 $\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*$ 对 $p_n$ 的依赖度逐渐减小， $p_n$ 的选择也越来越不重要。

推论3 对于任意归一化模型 $p_n$ ，当 $v\rightarrow \infty$ 时，噪声对比估计都是渐近“fisher高效的”。

证明：对于归一化模型来说，参数 $c$ 不再需要。在MLE中， $\boldsymbol{g}$ 为“得分函数”，矩阵 $\mathbb{I}$ 为费希尔信息矩阵（Fisher information matrix）。由于 $E(\boldsymbol{g})=\boldsymbol{0}$ ，协方差矩阵 $\boldsymbol{\Sigma}$ 是Fisher information matrix的逆矩阵。

对于噪声分布，一个好的选择是 $p_n$ 与 $p_d$ 非常接近。如果 $p_n$ 与 $p_d$ 差别太大，分类问题会非常简单，系统不会从样本的结构中学习太多东西。如下定理可以做部分解释：

推论4 如果 $p_n=p_d$ ，那么 $\boldsymbol{\Sigma}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )$ 。

证明：由于 $p_n=p_d$ ，所以 $P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}=\frac{v}{1+v}$ ， $\mathbb{I}_v=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}=\frac{v}{1+v}\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^Tp_d(\boldsymbol{u})d\boldsymbol{u}} =\frac{v}{1+v}\mathbb{I}$ ，

所以 $\Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )$ 。

对于归一化模型，当 $v=1$ 时， $E(\boldsymbol{g})=\boldsymbol{0}$ ，所以 $\Sigma=2\mathbb{I}^{-1}$ ；当 $v=10$ 时， $\Sigma=1.1\mathbb{I}^{-1}$ 。对于与训练样本分布相近的噪声分布， $v$ 不需要太大，MSE即可靠近其理论值。

为获取具有较小估计误差的分布估计，上述讨论可总结噪声分布的选取标准为：

1、 $\ln{p_n}$ 具有解析表达式；

2、噪声分布的采样过程较简单；

3、噪声分布在某些方面，例如其方差，与训练样本相同；

4、在计算允许的情况下，噪声样本量越大越好。

一些噪声分布可选的例子：高斯分布，高斯混合分布，ICA分布。若均匀分布的支撑（support）包含训练样本的支撑，这样条件（a）就可以成立了。

4 条评论

emmminame 2019.11.03
lz你好，估计器定义最后一句应该是对”ut属于y，h(ut,θ)尽可能小“吧
- shanghai_in_summer回复emmminame 2020.01.08
  [reply]emmminame[/reply]https://www.researchgate.net/publication/222099363_Noise-Contrastive_Estimation_of_Unnormalized_Statistical_Models_with_Applications_to_Natural_Image_Statistics 这篇文章译自网上的一篇论文。一年多了，现在也没时间去推导了，很多东西都忘了。

交通数据之王 2019.10.04
请问能发一下参考教材吗，谢谢！就是公式的来源书籍
- shanghai_in_summer回复交通数据之王 2020.01.08
  [reply]qq_40229652[/reply]各位，非常感谢你们关注本文，本文摘抄自一篇英语论文，由于时间较长，其中的一些推导过程也忘得差不多了，原文为《Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics》，感兴趣的可以访问 https://www.researchgate.net/publication/222099363_Noise-Contrastive_Estimation_of_Unnormalized_Statistical_Models_with_Applications_to_Natural_Image_Statistics