最易懂的概率分布估计:从抛硬币到二项分布的数学原理

最易懂的概率分布估计:从抛硬币到二项分布的数学原理

【免费下载链接】Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习;上架;欢迎继续纠错,纠错多的同学还会有赠书! 【免费下载链接】Book3_Elements-of-Mathematics 项目地址: https://gitcode.com/GitHub_Trending/bo/Book3_Elements-of-Mathematics

你是否曾好奇:为什么抛硬币次数越多,正反面出现的比例越接近50%?如何用数学方法预测"连续3次正面"的可能性?本文将用《数学要素》中的通俗案例,带你从直观经验跨越到严谨的概率计算,最终掌握二项分布(Binomial Distribution)这一机器学习中的基础工具。

读完本文你将能够:

从抛硬币看随机性与规律性

想象你连续抛10次硬币,记录每次的正反面结果。在Streamlit_Bk3_Ch20_02.py中,我们用红色标记正面(1)、蓝色标记反面(0),得到如下散点图:

# 核心代码片段(完整代码见[Streamlit_Bk3_Ch20_02.py](https://link.gitcode.com/i/df7c7badf7841d30eda78aeafca3dd84))
toss = np.random.randint(low=0, high=2, size=(num_toss, 1))  # 生成0/1随机序列
# 正面散点
scatter_fig.add_trace(go.Scatter(
    x=iteration[toss.flatten() == 1],
    y=toss[toss == 1].flatten(),
    mode='markers',
    marker=dict(color='red', size=6),
    name='Head (1)'
))

当实验次数从50增加到200次,累积均值曲线会逐渐稳定在0.5附近(如Streamlit交互工具右侧图表所示)。这种"大量重复实验下频率趋近概率"的现象,正是大数定律的直观体现。

二项分布的数学表达

在《数学要素》Book3_Ch20_概率入门中,二项分布被定义为"n次独立伯努利试验中成功次数的概率分布"。其概率质量函数(PMF)公式为:

$$P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$$

其中:

  • $\binom{n}{k}$ 是二项式系数,表示从n次试验中选择k次成功的组合数
  • $p$ 是单次试验成功的概率(如硬币正面概率0.5)
  • $n$ 是试验总次数
  • $k$ 是成功次数(0 ≤ k ≤ n)

Bk3_Ch02_01.ipynb中,我们用Scipy库直接计算该概率:

from scipy.stats import binom
p_x = binom.pmf(x, n, p)  # x为成功次数数组,n为试验次数,p为单次成功率

二项式树:概率传递的可视化

二项式树是理解二项分布的强大工具。在Streamlit_Bk3_Ch20_01.py中,每层节点代表试验次数,树枝表示成功/失败路径:

# 核心绘制代码(完整实现见[Streamlit_Bk3_Ch20_01.py](https://link.gitcode.com/i/0f3a9d6da2e4360dbad2098d65388ad7))
for i in np.arange(n):  # 遍历树的每一层
    Nodes_y = np.linspace(-i, i, i + 1)  # 当前层节点y坐标
    B_y = np.concatenate((Nodes_y + 1, Nodes_y - 1))  # 下一层节点y坐标
    ax1.plot(x_AB, y_AB, 'o-', color='#92D050', markerfacecolor='#0099FF')

当n=5,p=0.5时,树的右侧会形成对称的概率分布;而当p=0.7时,分布会明显向右偏斜。这种可视化帮助我们理解:二项分布的形状由成功概率p和试验次数n共同决定

实战案例:投篮命中概率计算

假设某篮球运动员投篮命中率为60%(p=0.6),连续投篮10次,求命中7次的概率。使用Bk3_Ch20_01.ipynb中的代码:

n = 10  # 投篮次数
k = 7   # 命中次数
p = 0.6 # 单次命中率
probability = binom.pmf(k, n, p)
print(f"命中7次的概率为:{probability:.4f}")  # 输出结果:0.2150

这个结果意味着,如果该运动员每天训练投篮100组(每组10次),平均会有21.5组恰好命中7次。

从数学到机器学习

在机器学习中,二项分布广泛用于:

  • 逻辑回归的概率建模
  • 分类问题的损失函数计算
  • 神经网络输出层的激活函数设计

《数学要素》Book3_Ch20_概率入门详细阐述了这些应用场景。通过调节Streamlit_Bk3_Ch20_01.py中的概率滑块(p参数),你可以直观感受不同成功概率下的分布变化,这对于理解分类模型的阈值选择至关重要。

总结与扩展学习

本文通过抛硬币实验引入二项分布概念,借助Streamlit交互工具可视化概率分布规律,并通过投篮案例展示实际应用。关键知识点:

  1. 频率与概率:大量重复实验中,频率稳定于概率(Streamlit_Bk3_Ch20_02.py
  2. 二项式系数:表示组合数,对应杨辉三角第n行(Bk3_Ch20_01.ipynb
  3. 分布形状:n固定时,p=0.5为对称分布;p≠0.5时产生偏斜(Streamlit_Bk3_Ch20_01.py

推荐进一步学习:

收藏本文,下次遇到概率计算问题时,直接对照Bk3_Ch20_01.ipynb中的模板代码即可快速解决!

【免费下载链接】Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书:从加减乘除到机器学习;上架;欢迎继续纠错,纠错多的同学还会有赠书! 【免费下载链接】Book3_Elements-of-Mathematics 项目地址: https://gitcode.com/GitHub_Trending/bo/Book3_Elements-of-Mathematics

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值