【泛函基础】变分推断详解（一）

最新推荐文章于 2024-11-17 20:29:13 发布

原创最新推荐文章于 2024-11-17 20:29:13 发布 · 2.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

文章介绍了变分推断在机器学习和深度学习中的重要性，以及如何利用变分推断解决不易直接求解的分布问题。通过寻找近似分布来优化推断过程，特别是当原始目标分布不易表达时，转而求解一个易于处理的分布。文章提到了隐变量、先验分布、后验分布、边缘分布和贝叶斯公式的前置知识，并提供了直观的理解示例。

1 引言

在学习机器学习和深度学习的过程中，基础的数学知识粗略的可以分为两大类：矩阵论和概率论，基本都逃不过这两个框架（除了优化问题）。而在概率论中尤其以变分推断用的最为广泛，无论是最新的深度学习算法还是机器学习基础，各种知识方法总是存在着对变分推断这一部分知识的交叉。因此掌握变分推断是十分重要的（模型要用啊），所以才有了这篇文章，其中内容图片多有参考他人文章，相关参考来源一并在参考文献中给出链接。

2 前置知识

2.1 隐变量

2.2 先验分布

2.3 后验分布

2.4 边缘分布

2.5 贝叶斯公式

3 简单理解变分推断

首先，我们的原始目标是，需要根据已有数据推断需要的分布 $p$ ；当 $p$ 不容易表达，不能直接求解时，可以尝试用变分推断的方法，即，寻找容易表达和求解的分布 $q$ ，当 $q$ 和 $p$ 的差距很小的时候， $q$ 就可以作为 $p$ 的近似分布，成为输出结果了。在这个过程中，我们的关键点转变了，从“求分布”的推断问题，变成了“缩小距离”的优化问题。
在这里插入图片描述