归一化流:原理、应用与进展
1. 归一化流基础
在归一化流中,每个权重矩阵 $\Omega$ 的绝对值必须小于 1。一种简单的方法是通过裁剪权重 $\Omega$ 的绝对值,确保其值较小。
雅可比行列式通常难以直接计算,但可以使用一系列技巧来近似其对数:
[
\log \left| I + \frac{\partial f[h, \phi]}{\partial h} \right| = \text{trace} \left[ \log \left( I + \frac{\partial f[h, \phi]}{\partial h} \right) \right] = \sum_{k=1}^{\infty} (-1)^{k - 1} \text{trace} \left[ \left( \frac{\partial f[h, \phi]}{\partial h} \right)^k \right]
]
这里,第一行使用了 $\log[|A|] = \text{trace}[\log[A]]$ 的恒等式,第二行将其展开为幂级数。
即使截断这个级数,计算各项的迹仍然计算成本较高。因此,我们使用哈钦森迹估计器进行近似。考虑一个均值为 0、方差为 $I$ 的正态随机变量 $\epsilon$,矩阵 $A$ 的迹可以估计为:
[
\text{trace}[A] = \text{trace} \left[ A E[\epsilon \epsilon^T] \right] = \text{trace} \left[ E[A \epsilon \epsilon^T] \right] = E \left[ \text{trace}[A \
超级会员免费看
订阅专栏 解锁全文
753

被折叠的 条评论
为什么被折叠?



