样本和总体
总体均值 u = ∑ i = 1 N x i N u=\frac{\sum_{i=1}^{N} x_{i}}{N} u=N∑i=1Nxi,样本均值 X ‾ = ∑ i = 1 n x i n \overline{X}=\frac{\sum_{i=1}^{n} x_{i}}{n} X=n∑i=1nxi
总体方差
总体方差 σ 2 = ∑ i = 1 N ( x i − μ ) 2 N \sigma^{2}=\frac{\sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}{N} σ2=N∑i=1N(xi−μ)2
样本方差
样本方差
S
n
2
=
∑
i
=
1
n
(
x
i
−
x
‾
)
2
n
S_{\text{n}}^2=\frac{\sum_{i=1}^n{\left( x_i-\overline{x} \right) ^2}}{n}
Sn2=n∑i=1n(xi−x)2,这个公式计算的样本方差通常会低估总体方差。
无偏样本方差
S
2
=
S
n
−
1
2
=
∑
i
=
1
n
(
x
i
−
x
‾
)
2
n
−
1
S^{2}=S_{n-1}^{2}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1}
S2=Sn−12=n−1∑i=1n(xi−x)2,总体方差的无偏估计。
标准差
σ \sigma σ,S
随机变量
随机变量:X、Y、Z,区别于传统变量之处在于,它更像是从随机过程映射到数值的函数,包括离散和连续随机变量。
概率密度函数
概率密度函数从负无穷到正无穷求积分为1.
二项分布
p
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
p(x=k)=C_{n}^{k} p^{k}(1-p)^{n-k}
p(x=k)=Cnkpk(1−p)n−k
期望值:
E
(
X
)
=
n
p
E\left( X \right) =np
E(X)=np
方差:
n
p
(
1
−
p
)
np\left( 1-p \right)
np(1−p)
泊松分布
E
(
X
)
=
λ
=
n
p
E\left( X \right) =\lambda =np
E(X)=λ=np
推导可得,
p
(
x
=
k
)
=
lim
n
→
∞
C
n
k
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
λ
k
k
!
e
−
λ
p\left( x=k \right) =\lim_{n\rightarrow \infty} C_{n}^{k}\left( \frac{\lambda}{n} \right) ^k\left( 1-\frac{\lambda}{n} \right) ^{n-k}=\frac{\lambda ^k}{k!}e^{-\lambda}
p(x=k)=limn→∞Cnk(nλ)k(1−nλ)n−k=k!λke−λ
大数定律
当n趋向于无穷时,样本均值与期望值近似相等。
正态分布
p
(
x
)
=
1
σ
2
π
e
−
1
2
(
x
−
μ
σ
)
2
p(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{2}}
p(x)=σ2π1e−21(σx−μ)2,随着n的增加,正态分布和二项分布的差值越来越小。
累积分布函数:
C
D
F
(
x
)
=
∫
−
∞
x
p
(
x
)
d
x
C D F(x)=\int_{-\infty}^{x} p(x) d x
CDF(x)=∫−∞xp(x)dx
z分数:
x
−
μ
σ
\frac{x-\mu}{\sigma}
σx−μ
标准正态分布:均值为0,方差为1.
经验法则:1
σ
\sigma
σ 68%, 2
σ
\sigma
σ 95%, 3
σ
\sigma
σ 99.7%