最易懂的概率分布估计：从抛硬币到二项分布的数学原理-优快云博客

最易懂的概率分布估计：从抛硬币到二项分布的数学原理

【免费下载链接】Book3_Elements-of-Mathematics Book_3_《数学要素》 | 鸢尾花书：从加减乘除到机器学习；上架；欢迎继续纠错，纠错多的同学还会有赠书！项目地址: https://gitcode.com/GitHub_Trending/bo/Book3_Elements-of-Mathematics

你是否曾好奇：为什么抛硬币次数越多，正反面出现的比例越接近50%？如何用数学方法预测"连续3次正面"的可能性？本文将用《数学要素》中的通俗案例，带你从直观经验跨越到严谨的概率计算，最终掌握二项分布（Binomial Distribution）这一机器学习中的基础工具。

读完本文你将能够：

用Streamlit交互工具模拟1000次抛硬币实验
理解二项分布公式中每个符号的现实含义
通过二项式树可视化掌握概率传递规律
解决"10次投篮命中7次"的概率计算问题

从抛硬币看随机性与规律性

想象你连续抛10次硬币，记录每次的正反面结果。在Streamlit_Bk3_Ch20_02.py中，我们用红色标记正面（1）、蓝色标记反面（0），得到如下散点图：

# 核心代码片段（完整代码见[Streamlit_Bk3_Ch20_02.py](https://link.gitcode.com/i/df7c7badf7841d30eda78aeafca3dd84)）
toss = np.random.randint(low=0, high=2, size=(num_toss, 1))  # 生成0/1随机序列
# 正面散点
scatter_fig.add_trace(go.Scatter(
    x=iteration[toss.flatten() == 1],
    y=toss[toss == 1].flatten(),
    mode='markers',
    marker=dict(color='red', size=6),
    name='Head (1)'
))

当实验次数从50增加到200次，累积均值曲线会逐渐稳定在0.5附近（如Streamlit交互工具右侧图表所示）。这种"大量重复实验下频率趋近概率"的现象，正是大数定律的直观体现。

二项分布的数学表达

在《数学要素》Book3_Ch20_概率入门中，二项分布被定义为"n次独立伯努利试验中成功次数的概率分布"。其概率质量函数（PMF）公式为：

$$P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$$

其中：

$\binom{n}{k}$ 是二项式系数，表示从n次试验中选择k次成功的组合数
$p$ 是单次试验成功的概率（如硬币正面概率0.5）
$n$ 是试验总次数
$k$ 是成功次数（0 ≤ k ≤ n）

在Bk3_Ch02_01.ipynb中，我们用Scipy库直接计算该概率：

from scipy.stats import binom
p_x = binom.pmf(x, n, p)  # x为成功次数数组，n为试验次数，p为单次成功率

二项式树：概率传递的可视化

二项式树是理解二项分布的强大工具。在Streamlit_Bk3_Ch20_01.py中，每层节点代表试验次数，树枝表示成功/失败路径：

# 核心绘制代码（完整实现见[Streamlit_Bk3_Ch20_01.py](https://link.gitcode.com/i/0f3a9d6da2e4360dbad2098d65388ad7)）
for i in np.arange(n):  # 遍历树的每一层
    Nodes_y = np.linspace(-i, i, i + 1)  # 当前层节点y坐标
    B_y = np.concatenate((Nodes_y + 1, Nodes_y - 1))  # 下一层节点y坐标
    ax1.plot(x_AB, y_AB, 'o-', color='#92D050', markerfacecolor='#0099FF')

当n=5，p=0.5时，树的右侧会形成对称的概率分布；而当p=0.7时，分布会明显向右偏斜。这种可视化帮助我们理解：二项分布的形状由成功概率p和试验次数n共同决定。

实战案例：投篮命中概率计算

假设某篮球运动员投篮命中率为60%（p=0.6），连续投篮10次，求命中7次的概率。使用Bk3_Ch20_01.ipynb中的代码：

n = 10  # 投篮次数
k = 7   # 命中次数
p = 0.6 # 单次命中率
probability = binom.pmf(k, n, p)
print(f"命中7次的概率为：{probability:.4f}")  # 输出结果：0.2150

这个结果意味着，如果该运动员每天训练投篮100组（每组10次），平均会有21.5组恰好命中7次。

从数学到机器学习

在机器学习中，二项分布广泛用于：

逻辑回归的概率建模
分类问题的损失函数计算
神经网络输出层的激活函数设计

《数学要素》Book3_Ch20_概率入门详细阐述了这些应用场景。通过调节Streamlit_Bk3_Ch20_01.py中的概率滑块（p参数），你可以直观感受不同成功概率下的分布变化，这对于理解分类模型的阈值选择至关重要。

总结与扩展学习

本文通过抛硬币实验引入二项分布概念，借助Streamlit交互工具可视化概率分布规律，并通过投篮案例展示实际应用。关键知识点：

频率与概率：大量重复实验中，频率稳定于概率（Streamlit_Bk3_Ch20_02.py）
二项式系数：表示组合数，对应杨辉三角第n行（Bk3_Ch20_01.ipynb）
分布形状：n固定时，p=0.5为对称分布；p≠0.5时产生偏斜（Streamlit_Bk3_Ch20_01.py）

推荐进一步学习：

官方教程：README.md
二项分布源码实现：Book3_Ch20_Python_Codes/
进阶内容：Book3_Ch21_统计入门

收藏本文，下次遇到概率计算问题时，直接对照Bk3_Ch20_01.ipynb中的模板代码即可快速解决！

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考