【机器学习】机器学习中用到的高等数学知识-2.概率论与统计 (Probability and Statistics)

  • 概率分布:理解数据的分布特征(如正态分布、伯努利分布、均匀分布等)。
  • 期望和方差:描述随机变量的中心位置和离散程度。
  • 贝叶斯定理:用于推断和分类中的后验概率计算。
  • 假设检验:评估模型的性能和数据显著性。

概率分布

概率分布是描述随机变量可能取值及其对应概率的一种方式。在统计学和概率论中,概率分布广泛用于描述现象的随机性和不确定性。根据随机变量的类型,概率分布分为离散概率分布连续概率分布

1. 离散概率分布

离散概率分布适用于离散随机变量(取值为离散数值的随机变量),常见的离散概率分布有:

  • 二项分布

        描述了在 n 次独立试验中某事件 A 成功出现 k 次的概率,假设事件 A 成功的概率是 p,不成功的概率是 1 - p,适用于“是/否”或“成功/失败”类型的事件。

P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}

        推导步骤:

                定义条件:每次试验是独立的,且事件成功的概率 p 不变。

                组合数:在 n 次试验中恰好有 k 次成功,可能的排列有 \binom{n}{k} 种,即 \binom{n}{k} = \frac{n!}{k!(n-k)!}

                概率计算:每个特定排列中的成功和失败概率相乘得到 p^k (1 - p)^{n - k}

                最终公式:将组合数和成功排列概率相乘,得到二项分布的概率质量函数(PMF):

P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}

        Python 示例:


展示了在 n = 20 次试验中,成功出现 k 次的概率,当成功概率 p = 0.5。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom

# 设置 x 值范围
x_binom = np.arange(0, 21)

# 二项分布:n=20, p=0.5
y_binom = binom.pmf(x_binom, n=20, p=0.5)

# 绘制二项分布
plt.figure(figsize=(7, 5))
plt.stem(x_binom, y_binom, linefmt='#FFA700', basefmt=' ')
plt.title("Binomial Distribution (n=20, p=0.5)")
plt.xlabel("k")
plt.ylabel("P(X=k)")
plt.show()
  • 泊松分布

        用于描述单位时间或空间内某事件发生的次数,特别是罕见事件的发生频率。假设事件的发生是稀疏的、独立的,并且单位时间内的事件平均发生次数为 \lambda

P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

        推导步骤:

                从二项分布入手:泊松分布可以看作二项分布的极限情况,令 n \to \inftyp \to 0,但 np = \lambda 保持不变。

                概率计算:应用极限计算

P(X = k) = \lim_{n \to \infty} \binom{n}{k} p^k (1 - p)^{n - k}

                简化:用 p = \frac{\lambda}{n}​ 代入并化简,得到

P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}

        Python 示例:

描述了单位时间内事件发生 k 次的概率,这里 λ=5。

import numpy as np
import matplotlib.pyplot as p
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值