1. 随机变量
1.1 随机试验 & 随机变量 & 样本
- 随机试验是指在相同的条件下对某随机现象进行的大量重复观测。三个特点:试验结果可列举;可重复试验(相同的条件);结果随机出现。
- 「随机变量」描述的是随机试验的结果,通常用大写的 X X X 来表示, X X X 可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合,把偶哦结果的总数或者均值。
- 样本为每次随机试验的结果,也称为「观测值」。根据样本量的不同,将不同的随机试验称为样本量为 n n n的随机试验。
1.2 离散型随机变量 & 连续型随机变量
随机变量可以分为两种:离散型随机变量和连续型随机变量。二者的区别在于所描述的随机试验所有可能的结果数量是否可数(countable)。要特别留意这里用的是「可数」,而不是「有限」。
离散随机变量 分布率 E X EX EX D X DX DX 伯努利分布: X ∼ B ( 1 , p ) X \sim B(1, p) X∼B(1,p) P ( X = 1 ) = p P(X=1)=p P(X=1)=p, P ( X = 0 ) = 1 − p P(X=0)=1-p P(X=0)=1−p p p p p ( 1 − p ) p(1-p) p(1−p) 二项分布: X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p) P ( X = x ) = C n k p k ( 1 − p ) n − k P(X=x)=C_n^k p^k (1-p)^{n-k} P(X=x)=Cnkpk(1−p)n−k n p np np n p ( 1 − p ) np(1-p) np(1−p) 泊松分布: X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ) P ( X = x ) = λ k e − λ k ! P(X=x)=\frac{\lambda^k e^{-\lambda} }{k!} P(X=x)=k!λke−λ λ \lambda λ λ \lambda λ 二项分布:n个重复独立的伯努利分布。重复独立:各实验结果相互独立、每个伯努利分布发生概率均为 p p p。
泊松分布:适合描述在单位时间(或空间)内随机事件发生的次数,eg:某App在单位时间内访问的人数。
累积分布函数(CDF)- F ( x ) F(x) F(x)与概率密度函数(PDF)- f ( x ) f(x) f(x)的关系: F ( x ) = P ( X ≤ x ) , F ( X ) = ∫ − ∞ x f ( x ) d x F(x)=P(X\le x), F(X)=\int_{-\infty}^x f(x)dx F(x)=P(X≤x),F(X)=∫−∞xf(x)dx。
连续型随机变量 概率密度函数 E X EX EX D X DX DX 均匀分布: X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b) f ( x ) = 1 b − a , x ∈ [ a , b ] f(x)=\frac{1}{b-a}, x\in [a, b] f(x)=b−a1,x∈[a,b] a + b 2 \frac {a+b}{2} 2a+b ( b − a ) 2 12 \frac {(b-a)^2}{12} 12(b−a)2 正态分布: X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2) f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt {2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ1e−2σ2(x−μ)2 μ \mu μ σ 2 \sigma^2 σ2 指数分布: X ∼ E ( λ ) X \sim E(\lambda) X∼E(λ) f ( x ) = λ e − λ x , x > 0 f(x)=\lambda e^{-\lambda x}, x>0