说明
这篇博客主要是介绍概率论还有信息论的一些预备知识。主要以翻译为主,很多地方的结论也都是根据书上直接得到的,没有给出具体的求解过程。
第二章 概率
2.1 介绍
在进行更加技术性的内容之前,先不妨想一下什么是“概率”?我们经常会说:丢一枚硬币,正面朝上的概率是0.5。这句话的意思是什么。有两种不同的观点,一个是频率派的观点,他们认为概率就是你重复做一件事N次,如果事件发生了m次,那么概率就是m/N。从抛硬币角度,就是你抛了特别多次,那么往往有一半是正的,一半是反的。另一个则是贝叶斯(Bayesian)派的观点。他们是基于一些信息去量化某件事的不确定性。比如我认为硬币是密度均匀的,对称的圆的形状,所以我认为它正反的概率都是一样的0.5。贝叶斯解释的最大的好处就是它不需要多次重复尝试,比如问你地球什么时候毁灭,南极什么时候融化,这些问题都只能基于你拥有的信息,去给出这个事件发生的可能性。因为这种事件是不可重复的。
2.2 概率论的简要温习
这一部分内容主要就是对概率论的一些基本的内容进行简要的回顾。
2.2.1 离散随机变量
这里不具体详述,举个简单的例子,还是投一枚硬币,对于这个事件A,发生的情况有两种正面朝上,反面朝上。那么离散随机变量X的取值为0或者1。其概率分布就叫做pmf(probability mass function)。,
。
2.2.2 基本的运算法则
2.2.2.1 两个事件的并集的概率
,如果A和B是互斥的,那么
。
2.2.2.2 联合概率
A和B的联合概率,这个也叫乘法原理。对于一个联合概率分布,我们可以计算它的边缘概率分布p(A),
,这个也叫做加法原理。下面介绍一个链式法则
。
2.2.2.3 条件概率
对于事件A,B,条件概率。
2.2.3 贝叶斯理论
贝叶斯理论综合运用了加法和乘法的原理。具体如下:
。
2.2.3.1 例子:医疗诊断
这里讲了一个关于诊断乳腺癌的例子,假设有一个仪器,如果你有乳腺癌,那么你被诊断出来有乳腺癌的概率是0.8,即。这里事件x=1表示机器诊断出来你有乳腺癌,y=1表示事件你有乳腺癌。那么你如果被诊断出来有乳腺癌,你是否就认为你有80%的可能性患了乳腺癌呢。其实并不是,考虑p(y=1)=0.004,也就是一个人患乳腺癌的概率是0.004。我们假设如果你没有乳腺癌,那么机器判断你有的概率为0.1,即
。利用贝叶斯理论
那么可以看到,机器检测出你有乳腺癌,而实际上你有的概率只有0.031,所以这跟直觉上是不是相差很大呢。
2.2.3.2 例子:生成分类器
生成分类器利用公式
去进行分类,为什么称为生成分类器,因为它可以利用类条件概率和类先验
去生成数据。书后面会详细的讲这个,以及生成模型和判别模型的区别和优缺点。
2.2.4 独立和条件独立
如果变量X和Y是独立的,这里就是指无条件独立,那么。这个比较好理解,就是两个事情风马牛不相及,扯不上关系。
条件独立就是。公式很容易看懂,后面概率图模型中也会有很好的解释。不过一开始接触这个,我一直就理解不了,不知道怎么与实际对应起来。现在我就以自己的理解讲一下书上的例子。假设X是明天下雨,Y是今天地是湿的,Z是今天下雨。那么我说Y和X是关于Z独立的。为什么这么说,首先明天下雨跟今天地是湿的有关系,所以不独立,但是为什么有关系,因为地是湿的,所以很有可能今天下雨了,那么明天有可能会下雨的概率很大。但是我已经知道今天下雨了,所以我再去推断明天下不下雨,其实我完全就不需要知道地是否是湿的,所以就是独立的。这是我的个人理解,仅供参考。所以这里Y是通过Z影响X,我们通过Y去推断Z再去推断X,如果Z都知道了,那么你的Y就影响不到X了。
这里有个定理,如果X,Y关于Z是条件独立的,那么就存在两个函数g和h使得,这对于所有x,y,z都成立。
2.2.5 连续随机变量
这个就不详细说了,连续随机变量的概率密度函数就是pdf,概率密度函数的关于负无穷到x的积分就是累积分布函数cdf。
2.2.6 分位数
分位数有上侧分位数,双侧
分位数,具体就不写了,可以参考概率论的书。
2.2.7 均值和方差
均值就是,积分域还有求和域就是x所能取到的所有的值。方差的定义和计算
根据公式可以看到方差就是二阶矩减去均值的平方。标准差就是方差开根号。
2.3 一些常见的离散分布
2.3.1 二项分布和伯努利分布
假设投一枚硬币n次,那么正面朝上的次数就是服从二项分布。假设每一次投正面朝上的概率为
。
其中
。
该分布的均值为,方差为