数学期望: 又称均值,期望,表达式E(x)
# The Normal Distribution(or Gaussian distribution) 正态分布 (又名高斯分布)
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度(低标准差表明数据点往往接近平均值)。当μ = 0, σ = 1时的正态分布是标准正态分布。
## 标准化/z变换
正太分布 变换 标准正太分布(均值为0,标准差为1)
其中为正太分布均值,
为正太分布的标准差,
为变化后的值。X为随意变量。
## 标准误
标准差除以样本量的平方根
## 置信区间
大约 68% 的数据落在一个标准差(这里指抽样分布的标准差,即标准误)内,大约 95% 的数据落在均值的两个标准差内。
根据z-score,我们有 95% 的信心认为均值落在 [Mean — 1.96STD.Error, Mean + 1.96STD.Error],并且有 99% 的信心认为均值落在更宽的范围内 [Mean — 2.58STD.Error, Mean + 2.58STD.Error]。这些范围就是我们所说的置信区间。
# The Binomial Distribution 二项分布
伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。单个伯努利试验是没有多大意义的,然而,当我们反复进行伯努利试验,去观察这些试验有多少是成功的,多少是失败的,事情就变得有意义了,这些累计记录包含了很多潜在的非常有用的信息。
# Poission Distribution 泊松分布
随机变量取所有可能取值的概率:
其中λ>0且为常数,则称X服从参数为λ的泊松分布,记为X~P(λ). λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。
满足泊松分布的模型:
- 一件事在一定时间内发生的次数是随机的
- 每次事件的发生相互独立
- 该事件要么发生,要么不发生
- 一段时间内该事件发生的概率已知
# 伽马分布 伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。“指数分布”和“χ2分布”都是伽马分布的特例。
- 意义:n个相互独立的指数分布的随机变量的和
- 定义:假设随机变量X为等到第
件事发生所需的等候时间则概率密度(pdf)为
一件事发生的次数 事情发生一次的概率 Central Limit Theorem 中央极限定理