概率
概率公理:
满足下列3个条件的函数称为概率函数
(1)0<=P(A)<=1
(2)P(S)=1
(3)如果A1A2A3⋯是一系列两两无关的事件,即对于∀i≠j,Ai⋂Aj=∅,则
(可列可加性)
条件概率:
令B为一个事件满足P(A)>0,对于任一事件B,定义B的关于A的条件概率(事件A发生条件下,事件B发生的概率)
独立:
如果A,B满足P(A⋂B)=P(A)P(B),称A,B独立
可以推出P(A)=P(A|B)
全概率公式:<求结果概率>
设B1B2B3⋯Bn是样本空间S中互不相交的一系列事件,并且满足和为全集,即S=⋃nk=1Bk,且P(Bi)>0,则对任意事件A有
贝叶斯定理:<求原因概率>
P(Bi)叫先验概率,P(Bi|A)叫后验概率
发生概率为 0 的事件不一定为不可能事件。
离散型随机变量
期望:
E(X)=∑ni=1Xipi
方差:
D(X)=E(X−E(X))2=E(X2)−(EX)2
标准差:
σx=D(X)−−−−−√
伯努利概型:(满足二项分布)
(1)在一组固定不变的条件下重复地做一种实验
(2)只有两种结果:事件发生或不发生
(3)每次实验中,相同事件发生的概率均一样
(4)各次实验结果相互独立
设 p 为每次实验 A 发生的概率,Pn(k)表示n重伯努利实验中 A 出现 k (0 <= k <= n)的概率,则Pn(k)=Cknpk(1−p)n−k
二项分布:
在上述条件下,设 X 为 n 次独立重复实验中成功出现的次数,X = (0,1,…n),且它的概率函数为
这个分布称为二项分布,记为X~B(n,p)
期望:E(X)=np
方差:D(X)=np(1−p)
标准差:σ=np(1−p)−−−−−−−−√
两点分布:
特殊的二项分布,n = 1
p称为成功概率
期望:E(X)=p
方差:D(X)=p(1−p)
几何分布:
事件 A 在第 k 次试验中才首次发生的概率为p(1−p)k−1
有方程:
期望:E(X)=1p
方差:D(X)=1−pp2
超几何分布:
在有M件次品的N件产品中,不放回的取出n件,其中含有X件次品
记作X~H(n,M,N)
期望:E(X)=nMN
方差:D(X)=nMN−(nMN)2+n(n−1)M(M−1)N(N−1)
正态分布:
f(x)称为正态分布密度曲线
记作X~N(μ,σ2)
期望:μ
方差:σ2
P(μ−σ<X<=μ+σ)=0.6826
P(μ−2σ<X<=μ+2σ)=0.9544
P(μ−3σ<X<=μ+3σ)=0.9974
期望的线性性:
(1) E(c)=c
(2) E(cX)=cE(X)
(3) E(∑ni=1xi)=∑ni=1E(xi)
(4) E(XY)=E(X)E(Y) (充分条件:X、Y独立,充要条件:X、Y不相关)
方差的性质:
(1) D(c)=0
(2) D(aX+b)=a2D(X)
(3) D(X)=E(X2)−E2(X)
(4) D(X±Y)=D(X)+D(Y) (充分条件:X、Y独立,充要条件:X、Y不相关)
马尔科夫不等式:
假设X是只取非负数值的随机变量,对∀a>0,有
切比雪夫不等式:
对任意随机变量X及任意a > 0,有
统计
三种随机抽样方法:简单抽样(不放回)、系统抽样(等距抽样,多的剔除)、分层抽样
茎叶图
频率分布直方图
众数:出现次数最多的数(可能是多个)//最高矩形底边中点的横坐标
中位数:最中间的一个数(最中间两个数的平均数)//中位数左右直方图面积相等
平均数:小矩形的面积乘以小矩形底边中点的横坐标之和
极差:又称全距,极差 = 组数 * 组距
独立性检验
最小二乘法:
回归直线方程:yˆ=bˆx+aˆ
其中 bˆ=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2=∑ni=1xiyi−nx¯y¯∑ni=1x2i−nx¯2,aˆ=y¯−bˆx¯
回归直线方程一定经过样本点的中心(x¯,y¯)
有些取对etc.可以变成线性的。。。
线性相关系数 r=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2∑ni=1(yi−y¯)2√
|r|>=0.75→ 强相关
r > 0 正相关
r < 0 负相关
y=bx+a+e
x:解释变量,y:预报变量,e:残差
R2=1−∑ni=1(yi−yiˆ)2/∗残差平方和∗/∑ni=1(yi−y¯)2 越接近 1,回归效果越好