伯努利分布的最大似然估计

最新推荐文章于 2025-05-24 08:37:07 发布

原创

最新推荐文章于 2025-05-24 08:37:07 发布 · 1.9w 阅读

63 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #伯努利分布 #最大似然估计 #阿里巴巴 #实习

本文详细介绍了伯努利分布及其最大似然估计的推导过程，结合作者的阿里巴巴实习面试经历，强调了最大似然估计在机器学习中的重要性。通过计算离散型随机变量的数学期望和方差，以及对似然函数取对数求导，得出伯努利分布的参数p的最大似然估计公式。此外，还总结了求概率模型最大似然估计的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

昨天晚上参加阿里巴巴的实习面试，各种被虐。面试了将近90分钟，才做了3个题，加上项目的介绍。在机器学习方面，问到了一个伯努利分布的最大似然估计的推导，想到逻辑回归的推导就是利用最大似然估计，然后就套用了其推导过程。可能前面被说的有点迷糊了，导致最后也没有完整的推导出来，最失败的一次面试了。

对于阿里的暑期实习面试，其实问得内容还是都比较基础的。准备了很多关于特征工程、集成学习等内容，结果都没有考察到。反而被考的基础知识没有准备的比较清楚。这里对伯努利分布以及其最大似然估计做了一个详细的推导，其它的概率模型可以套用该模版。

祝看到此文章的小伙伴都能找到好的工作…

伯努利分布

伯努利分布，又名0-1分布，是一个离散概率分布。典型的示例是抛一个比较特殊的硬币，每次抛硬币只有两种结果，正面和负面。抛出硬币正面的概率为 $p$ ，抛出负面的概率则为 $1 - p$ 。因此，对于随机变量 $X$ ，则有：

$\begin{aligned} f(X=1) & = p \\ f(X=0) & =1-p \end{aligned}$

由于随机变量 $X$ 只有 0 和 1 两个值， $X$ 的概率分布函数可写为：
$f(X)=p^x(1-p)^{1-x}\qquad\text{$0<p<1$}\tag{1}$

数学期望

在概率论和统计学中，数学期望（或均值）是试验中每次可能结果的概率乘以其结果的总和。它反映了随机变量平均取值的大小。

离散型

离散型随机变量 $X$ 的数学期望为一切可能的取值 $x_i$ 与对应的概率 $p(x_i)$ 的乘积之和，即如果随机变量的取值为集合 $\lbrace x_1,x_2,\cdots, x_n \rbrace$ ，每个取值对应的概率为 $\lbrace p(x_1),p(x_2),\cdots, p(x_n) \rbrace$ ，则有：
$=\sum_{i=1}^{n}x_np(x_n) \tag{2}$
因此，对于伯努利分布，其数学期望为：
$E(X)=1\cdot p + 0\cdot (1-p)=p$