概率论知识点
机器学习三大基础课程包括概率论、决策论和信息论。本文整理概率论相关的知识点方便以后查阅,一般情况下只给出结论,证明过程请查阅相关书籍。
(由于涉及到大量的公式和图片,本文只列出知识点,详细信息请下载完整版:http://download.youkuaiyun.com/detail/fangqingan_java/5907567)
1. 概率
概率是对不确定性的一种定量表示,涉及概念包括:
1) 样本空间
2) 事件空间
3) 概率
特性:
1) 如果 ,则有P(A)≤P(B)
2) P(A∩B)≤min(P(A), P(B)
3) P(A∪B)≤P(A)+P(B)
4) P(Ω∕A)=1-P(A)
5) 如果A1、A2...An为互不相交事件,并且∪Ai=Ω,则有P(A1)+P(A2)+...+P(An)=1
1.1. 条件概率
2. 随机变量
随机变量X定义为一个函数X,它定义了样本空间到实数的映射。
根据函数的取值类型分为离散型随机变量和连续型随机变量
a) 离散型随机变量:P(X=k):= P{X=k}
b) 连续型随机变量:P(a≤X≤b) := P{a≤X≤b}
2.1. 累加分布函数
cumulative distribution function (CDF)
2.2. 概率质量函数
针对随机变量为离散型随机变量而言,定义概率质量函数Fx: Ω
2.3. 概率密度函数
对于随机变量未连续型随机变量,并且其概率分布函数可微,则定义随机变量X的概率密度函数为:
2.4. 期望
性质:
a) E[a]=a
b) E[af(X)]=aE[f(X)]
c) E(f(X)+g(X))=E[f(X)]+E[g(X)]
2.5. 方差
方差定义为度量随机变量X在其均值的偏差程度,方差越小其偏离度越小,其形式定义为:Var(X)=E[(X-E[X])2]=E[X2]-E[X]2.
性质:
a) Var[a]=0
b) Var[af(x)]=a2Var[f(x)]
2.6. 常见随机变量分布
3. 二维随机变量
3.1. 联合分布和边缘分布
3.2. 联合和边缘概率质量函数
3.3. 联合和边缘概率密度函数
3.4. 条件分布
3.5. 贝叶斯公式
连续型随机变量:
离散型随机变量:
3.6. 独立
如果事件X和Y相互独立,则有FXY(x,y)=FX(x)FY(y)则有
连续型随机变量:
a) fXY(x,y)=fX(x)Yf(y)
b) fXY(y|x)=fY(y)
离散型随机变量:
a) pXY(x,y)=pX(x)PY(y)
b) pXY(y|x)=PY(y)
3.7. 期望和协方差
--离散型随机变量期望
--连续型随机变量期望
X,Y的协方差定义为:
Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]
协方差的直观含义表示变量X和Y的相关性,如果X和Y相互独立,则有Cov[X,y]=0
性质:
4. 多维随机变量
连续型的随机变量在实际应用较多,以下主要针对多维连续随机变量。
4.1. 基本属性
连续型随机变量X1,X2...Xn
联合概率分布:
联合概率密度函数:
边缘概率密度函数:
条件概率密度函数:
某事件A的概率计算公式为:
概率密度的链式规则:
独立性:
4.2. 随机向量
在实际应用中,一般都要处理X1 X2...Xn多个随机变量,为了表示方便将他们表示成一个向量形式X=[x1,x2,...,Xn]T,
期望:
协方差矩阵:
协方差矩阵为半正定并且是对称矩阵,可以利用线性代数的很多性质。
4.3. 多元高斯分布
5. 参考资料
1) 维基百科
2) 斯坦福大学Andrew NG讲义