MDN

多元高斯分布与MDN

最新推荐文章于 2024-01-17 10:46:46 发布

原创最新推荐文章于 2024-01-17 10:46:46 发布 · 610 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#MD

本文详细介绍了多元高斯分布及其在混合密度网络(MDN)中的应用，探讨了协方差矩阵的意义，并提供了MDN的实现代码示例。

部署运行你感兴趣的模型镜像

$Y_i=log\pi_i-[log(\sqrt{2\pi})+log(\sigma)]+[-\frac{(y-\mu)^2}{2\sigma^2}]$

协方差矩阵反映的是变量之间的二阶统计特性，如果随机向量不同维度之间的相关性很小，则所得到的协方差举证几乎是一个对角矩阵。所以我们常常将协方差矩阵固定成一个对角阵。

多元正态分布

$N(x;\mu,\Sigma)= \sqrt{\frac{1}{{(2\pi)}^ndet(\Sigma)}}\left(exp(-\frac{1}{2}(x-\mu))^T\Sigma^{-1}(x-\mu)\right)$

参数 $\mu$ 表示分布的均值，是一个向量，表示随机变量不同维度的均值。 $\Sigma$ 给出了分布的协方差矩阵

MDN 数值计算

There are many details should be paid attention to.For example,calculations should be done using logarithmic scale in case of underflow.

$log\sum_{i=1}^K\pi_iP_i(x)=log\sum_{i=1}^Ke^{log\pi_iP_i(x)} = log\sum_{i=1}^Ke^{log\pi_i + \log P_i(x)} =log\sum_{i=1}^Ke^{y_i} = log\sum_{i=1}^Ke^{y_i-y_{max} }* e^{y_{max}} = y_{max}+\log\sum_{i=1}^Ke^{y_i - y_{max}}$

$Y_i=log\pi_i+logP_i(x)$

单高斯的情况：

$P_i(x) = \frac{1}{\sqrt{2\pi}\sigma}exp({-\frac{(y-\mu)^2}{2\sigma^2}})$
$logP_i(x)=log[\frac{1}{\sqrt{2\pi}\sigma}exp({-\frac{(y-\mu)^2}{2\sigma^2}})]=-[log(\sqrt{2\pi})+log(\sigma)]+[-\frac{(y-\mu)^2}{2\sigma^2}]$

多元高斯的情况：

$P_i(x) = N(x;\mu,\Sigma) = \sqrt{\frac{1}{{(2\pi)}^ndet(\Sigma)}}\left(exp(-\frac{1}{2}(x-\mu))^T\Sigma^{-1}(x-\mu)\right)$

$\log P_i(x) = log{(2\pi)^{-\frac{n}{2}}} + log(det(\Sigma))^{-\frac{1}{2}} + (-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) )$

$=-\frac{1}{2}(n * log(2\pi)) + log(det(\Sigma)) -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)$

多元高斯分布MDN代码：

mask = tf.cast(tf.sequence_mask(length, tf.shape(logits)[1]), tf.float32)
logits *= tf.expand_dims(mask, 2)
logits = tf.reshape(logits, [-1, self._mdn_output_size])
target = tf.reshape(target, [-1, self._output_size])

out_pi, out_mu, out_sigma = self._get_mixture_coef(logits, self._mix_num)

all_mix_prob = []
for i in xrange(self._mix_num):
    pi = out_pi[:, i : (i + 1)]
    mu = out_mu[:, i * self._output_size : (i + 1) * self._output_size]
    sigma = out_sigma[:, i * self._output_size : (i + 1) * self._output_size]
    # tf.reciprocal 倒数
    tmp = tf.multiply(tf.square(target - mu), tf.reciprocal(sigma))
    xEx = -0.5 * tf.reduce_sum(tmp, 1, keep_dims=True)
    # normaliser = tf.reduce_sum(tf.log(sigma), 1, keep_dims=True)
    normaliser = 0.5 * (self._output_size * tf.log(2 * math.pi) + tf.reduce_sum(tf.log(sigma),1,keep_dims=True))
    exponent = xEx + tf.log(pi) - normaliser
    all_mix_prob.append(exponent)

all_mix_prob = tf.concat(all_mix_prob, 1)   # 变成列向量
max_exponent = tf.reduce_max(all_mix_prob, 1, keep_dims=True)
mod_exponent = all_mix_prob - max_exponent  # 

finetune_cost = -tf.reduce_mean(
    max_exponent + tf.log(tf.reduce_sum(tf.exp(mod_exponent), 1, keep_dims=True)))

return finetune_cost

总结：
每一个X对应一个分布P。输入X通过神经网络后得到分布P的参数
包括
Decode时，就是选取最大的Pi对应的u作为模型的输出。

参考文献

浅谈协方差矩阵： http://www.cnblogs.com/chaosimple/p/3182157.html

您可能感兴趣的与本文相关的镜像

Dify

AI应用

Agent编排

Dify 是一款开源的大语言模型（LLM）应用开发平台，它结合了后端即服务(Backend as a Service) 和LLMOps 的理念，让开发者能快速、高效地构建和部署生产级的生成式AI应用。它提供了包含模型兼容支持、Prompt 编排界面、RAG 引擎、Agent 框架、工作流编排等核心技术栈，并且提供了易用的界面和API，让技术和非技术人员都能参与到AI应用的开发过程中