经典系统中的信息度量、参数估计与概率分布几何
1. Bregman散度
为了从更一般的角度讨论散度,我们基于实数域 $\mathbb{R}$ 上的一般严格凸函数 $\mu(\theta)$ 来定义Bregman散度。假设严格凸函数 $\mu(\theta)$ 二阶可微,那么 $\mu(\theta)$ 的Bregman散度(规范散度)定义为:
[D_{\mu}(\bar{\theta}\parallel\theta) := \mu’(\bar{\theta})(\bar{\theta} - \theta) - \mu(\bar{\theta}) + \mu(\theta)]
[= \max_{\tilde{\theta}} \mu’(\bar{\theta})(\tilde{\theta} - \theta) - \mu(\tilde{\theta}) + \mu(\theta) = \int_{\theta}^{\bar{\theta}} \mu’‘(\tilde{\theta})(\tilde{\theta} - \theta)d\tilde{\theta}]
由于最大值内的函数对于 $\tilde{\theta}$ 是凹函数,当导数为零时取得最大值,即 $\tilde{\theta} = \theta$,从而得到上述等式。在这种情况下,凸函数 $\mu(\theta)$ 被称为Bregman散度的势函数。当 $\bar{\theta} > \theta$ 时,上述最大值替换为 $\max_{\tilde{\theta}:\tilde{\theta}\geq\bar{\theta}}$。
因为函数 $\mu$ 是严格凸的,所以 $\theta$ 与
超级会员免费看
订阅专栏 解锁全文
918

被折叠的 条评论
为什么被折叠?



