统计机器学习中的重要分布及其代码和图例_discrete uniform distribution-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_53162487/article/details/134953693

在统计学和机器学习领域，概率分布是非常核心的概念，它们用于描述数据的不确定性和变化性。概率分布可以分为两大类：离散概率分布和连续概率分布。下面是一些最重要和最常见的概率分布：

离散概率分布

伯努利分布（Bernoulli Distribution）
- 描述的是一个只有两种可能结果的单次随机试验（例如抛硬币）。
二项分布（Binomial Distribution）
- 描述的是固定次数的独立重复试验中成功的次数，其中每次试验的成功概率是固定的。
泊松分布（Poisson Distribution）
- 用于描述在固定时间或空间内发生某事件的次数，特别适用于描述稀有事件。
几何分布（Geometric Distribution）
- 描述在第一次成功之前进行的独立伯努利试验次数。
负二项分布（Negative Binomial Distribution）
- 可以看作是几何分布的推广，描述在达到固定数量的成功之前进行的伯努利试验次数。
离散均匀分布（Discrete Uniform Distribution）
- 所有可能结果发生的概率都是相等的。

连续概率分布

正态分布（Normal Distribution）
- 也称为高斯分布，是最常见的连续概率分布之一，描述的是自然界中许多随机变量的分布情况。
均匀分布（Uniform Distribution）
- 在给定的范围内，任何值发生的概率是相等的。
指数分布（Exponential Distribution）
- 描述独立随机事件发生的时间间隔，常用于可靠性分析和排队理论。
伽马分布（Gamma Distribution）
- 指数分布的推广，用于描述多个独立随机事件发生的总时间。
贝塔分布（Beta Distribution）
- 描述在固定区间内的连续随机变量，常用于概率的概率分布。
t-分布（t-Distribution）
- 用于小样本数据的均值分析，特别是在标准差未知的情况下。
卡方分布（Chi-Squared Distribution）
- 主要用于统计推断，尤其是假设检验和置信区间的估计。
F分布（F-Distribution）
- 用于比较两个样本的方差，常用于方差分析（ANOVA）。

这些分布在统计学和机器学习中都非常重要，它们用于建模各种数据和问题，也是很多高级方法的基础。

连续数据分布

1. 正态分布（Normal Distribution）

公式定义

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）。若随机变量X服从一个数学期望为 $\mu$ 、方差为 $\sigma ^2$ 的正态分布，记为 $N(\mu，\sigma^2)$ 。其概率密度函数为正态分布的期望值 $\mu$ 决定了其位置，其标准差 $\sigma$ 决定了分布的幅度。当 $\mu = 0,\sigma = 1$ 时的正态分布是标准正态分布。 $\mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$ 其中， $\mu$ 是均值， $\sigma$ 是标准差。