贝叶斯神经网络详解
1. 混合密度网络与条件均值的局限性
在处理神经网络问题时,我们常常会使用到一些基础的概念和方法。一个标准的通过最小二乘法训练的网络,其实是在近似条件均值。而混合密度网络在某些情况下可以将传统的最小二乘法结果作为一种特殊情况来重现。
不过,对于多模态分布,条件均值的价值是有限的。例如,在控制一个简单的机器人手臂时,为了达到期望的末端执行器位置,我们需要从两个可能的关节角度设置中选择一个,而这两个解决方案的平均值本身并不是一个有效的解决方案。
我们还可以计算密度函数关于条件平均值的方差,公式如下:
[
s^2(x) = E \left[ |t - E[t|x]|^2 |x \right] = \sum_{k=1}^{K} \pi_k(x) \left{ \sigma^2_k(x) + \left| \mu_k(x) - \sum_{l=1}^{K} \pi_l(x) \mu_l(x) \right|^2 \right}
]
这里使用了相关的公式。这个方差比对应的最小二乘法结果更具一般性,因为它是关于 (x) 的函数。
在多模态分布的情况下,条件众数可能更有价值。但混合密度网络的条件众数没有简单的解析解,需要进行数值迭代。一个简单的替代方法是取每个 (x) 值下最可能的组件(即具有最大混合系数的组件)的均值。
2. 贝叶斯神经网络概述
到目前为止,我们对神经网络的讨论主要集中在使用最大似然法来确定网络参数(权重和偏置)。正则化的最大似然法可以被解释为一种最大后验(MAP)方法,其中正则化器可以看作是先验参数分布的对数。
然而,在贝叶斯处理中,
超级会员免费看
订阅专栏 解锁全文
1950

被折叠的 条评论
为什么被折叠?



