Probability(概率) vs Likelihood(似然)

1. 先验概率,条件概率与后验概率

在这里插入图片描述

2. Probability(概率) vs Likelihood(似然)

Probabiity(概率):给定某一参数值,求某一结果的可能性
Likelihood(似然):给定某一结果,求某一参数值的可能性

3. 似然函数

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数可以理解为条件概率的逆反。

4. 区别阐释

概率(probability)和似然(likelihood),都是指可能性,都可以被称为概率,但在统计应用中有所区别,不加以区分的话,对于之后的学习认知都会有很大的阻碍。

为了更好的帮助自己和大家理解这二者之间的区别,希望通过三种方法去阐释:

4.1 方法1:图示

假设现在有一组小鼠体重数据。该数据服从正态分布,该分布的均值是32克,标准差为2.5。该组数据的最小值是24g,最大值是40g。

那么概率是什么呢?当我们随机选取一只小鼠,它的体重在32g-34g之间的概率是落在该区间下,概率分布曲线下的面积。具体如下图所示:
在这里插入图片描述
讲完了概率,那么什么是似然呢?假设我们已经知道了一只小鼠的体重是34g。如图所示:
在这里插入图片描述

4.2 方法2:类比

该方法,是quora上的一个回答。在该回答中,他将概率与似然的关系比作是2b和a2的之间的关系。

我们假设一个函数为ab,该函数包含两个变量。如果你令b=2,这样我们就得到了一个关于a的二次函数,即a2:
在这里插入图片描述

4.3 方法3:举例

假设,我们抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?用公式计算的话:

其中,n=10,P=0.5,Q=0.5,计算得:0.205。该方法计算的是概率

那似然呢?似然值就是求某一参数的可能性,放在本例中就是:抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?

抛10次,结果是6次正面向上,这是一个给定的结果。问“匀质”的可能性,即求参数值P=0.5的可能性。计算公式与上面相同。结果相同,只是视角不同。

与似然相关联的概念是最大似然估计(MLE)。在本例中,问题就是:“抛10次,结果是6次正面朝上,那么,参数P的最大可能值是什么?”

我们知道硬币可能是匀质的,也可能是不均匀的,甚至不均匀的程度都各有不同。但是每种情况的概率各不相同。而最大似然估计,就是求出概率最大的那一个。

如果你还记得最大似然估计的计算方法,你会发现P=0.6

5. 最大似然估计(MLE)与最大后验概率(MAP)

最大似然估计是似然函数最初也是最自然的应用。似然函数取得最大值表示相应的参数能够使得统计模型最为合理。从这样一个想法出发,最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。似然函数的最大值不一定唯一,也不一定存在。
在这里插入图片描述

6.生成式模型与判别式模型

在这里插入图片描述

https://www.plob.org/article/23003.html

### 三、边缘概率的概念区别 在统计学和机器学习中,**边缘概率(Marginal Probability)**与**Likelihood)**是两个密切相关但含义不同的概念。它们在概率建模、参数估计和贝叶斯推断中扮演着关键角色。 #### 1. 边缘概率的定义与作用 边缘概率是指在联合概率分布中,忽略某些变量后剩余变量的概率分布。例如,若 $ P(X, Y) $ 是 $ X $ 和 $ Y $ 的联合分布,则 $ P(X) $ 是 $ X $ 的边缘概率分布,计算方式为: $$ P(X) = \sum_Y P(X, Y) $$ 边缘概率常用于**概率图模型**和**贝叶斯网络**中,用于简化复杂联合分布的计算。它也用于**期望最大化(EM)算法**中,在E步计算隐变量的后验概率时,需要用到边缘概率来归一化[^1]。 #### 2. 的定义与作用 函数描述的是在给定参数 $ \theta $ 的条件下,观测数据 $ D $ 出现的概率,记为 $ L(\theta | D) = P(D | \theta) $。在经典统计推断中,目标是寻找使函数最大化的参数,即最大估计(MLE)[^4]。 在贝叶斯统计中,函数与先验分布结合,通过贝叶斯定理计算后验分布: $$ P(\theta | D) \propto P(D | \theta) P(\theta) $$ 这使得成为连接数据与参数不确定性的重要桥梁[^1]。 #### 3. 边缘概率的区别 尽管边缘概率都涉及联合分布的处理,但它们的用途和数学表达方式有本质区别: - **数学形式不同**:边缘概率是将联合分布对无关变量求和或积分,而是固定数据后,关于参数的函数。 - **应用场景不同**:边缘概率用于描述变量自身的分布,而用于参数估计和模型比较。 - **在贝叶斯推断中的角色不同**:是构建后验分布的核心成分,而边缘概率通常用于归一化或模型选择中的边缘(marginal likelihood)计算[^1]。 --- ### 四、在统计推断中的应用 函数在统计推断中具有广泛的应用,尤其在参数估计和模型比较中: - **最大估计(MLE)**:寻找使函数最大化的参数,用于点估计。 - **比检验(LRT)**:用于比较两个嵌套模型的拟合优度。 - **贝叶斯推断中的**:结合先验分布计算后验分布,用于不确定性建模和预测。 在复杂模型中,如高斯混合模型(GMM),函数可能涉及多个参数,通常难以解析求解,需借助数方法(如EM算法)进行优化。 --- ### 五、边缘概率机器学习中的应用 边缘概率在以下机器学习任务中具有重要应用: - **概率图模型**:如隐马尔可夫模型(HMM)中,通过边缘概率计算观测序列的概率。 - **变分推断**:在近贝叶斯推断中,边缘概率用于构建变分目标函数。 - **模型选择**:在贝叶斯模型比较中,使用边缘(marginal likelihood)衡量模型对数据的整体拟合能力[^1]。 --- ### 示例:贝叶斯分类中的边缘概率 在朴素贝叶斯分类器中,类别 $ C $ 的后验概率为: $$ P(C | x) = \frac{P(x | C) P(C)}{P(x)} $$ 其中: - $ P(x | C) $ 是函数; - $ P(C) $ 是先验概率; - $ P(x) $ 是边缘概率,作为归一化因子。 ```python # 朴素贝叶斯分类示例 from sklearn.naive_bayes import GaussianNB model = GaussianNB() model.fit(X_train, y_train) y_pred = model.predict(X_test) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值