机器学习——算法学习——主题模型LDA(1)数学基础

本文深入探讨了统计学中的核心概念,包括贝叶斯公式、Gamma函数、贝塔分布、狄利克雷分布等,并详细解析了共轭先验分布的概念及其在LDA模型中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.重要公式

1. 贝叶斯公式

经典的贝叶斯公式表示为:P(\theta |X)=\tfrac{P(X|\theta )*P(\theta )}{P(X)}

当X为固定值时,P(X)为公共项。故可以写为:P(\theta |X)=\tfrac{P(X|\theta )*P(\theta )}{P(X)}\propto P(X|\theta)*P(\theta )

其中,我们对于随机变量θ,可以定义定义:

                                                                    ①先验概率:P(\theta )

                                                                    ②似然函数:P(X|\theta )

                                                                    ③后验概率:P(\theta |X)

因此,可以给出最后对贝叶斯公式的解读:后验概率∝似然函数*先验概率

2. Gamma函数(即Γ函数)

Gamma函数最初的由来,是为了将积分与阶乘联系到一起。哥德巴赫向伯努利兄弟写信请教,最终由当时在场的欧拉在22岁时提出Gamma函数解决。

Gamma函数的数学表示为:\Gamma (a)=\int_{0}^{+\infty }t^{a-1}e^{-t}dt

这里不再进行积分推导,直接给出Gamma函数的几个性质:

①. 当a为正整数时,\Gamma (a)=(a-1)!

②. \Gamma (a+1)=a\Gamma (a) 。

③. \Gamma (\tfrac{1}{2})=\sqrt{\pi } 。

二.重要分布

1. 二项分布

二项分布,即进行n次伯努利实验的概率分布。表示为B~(n,p)。n为实验次数,p为成功概率。


举例:经典的抛硬币问题,即一个简单的二项分布。二项分布只有两个结果,如果我们抛十次硬币,将抛正面记为成功,反面记为失败,则该分布即可表示为B~(10,0.5)。(假设正面反面概率均为0.5)


可以得到,P(k)=C_{n}^{k}p^{k}(1-p)^{n-k}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值