1.1 简介:
贝叶斯方法起源于英国学者Reverend Thomas的论文《An essay toward solving a problem in the doctrine of chance》该论文指出了著名的贝叶斯公式和一种归纳推理方法。20世纪30年代形成了贝叶斯学派,50~60年代,Robbins等学者提出了经验贝叶斯方法和经典方法相结合的观点,发展成很有影响的贝叶斯统计学派。80年代,随着人工智能的发展,贝叶斯网络成功地应用于专家系统成为不确定专家知识和推理的流行方法。90年代以后,随着机器学习、数据挖掘技术的兴起,以及贝叶斯独特的不确定性知识表示能力、综合先验知识的能力、抗噪音能力等特性,贝叶斯方法成为数据挖掘和机器学习中一个重要的 研究方向。(摘自《贝叶斯分类研究》一书)
1.2 贝叶斯定理:
推导过程:首先要了解联合概率:是指两个事件同时发生的概率。记P(A and B)或P(A ∩ B),且满足乘法交换律,即P(A ∩ B) = P(B ∩ A)
联合概率表达式:P(A ∩ B) = P(A) * P(B | A) ---------- 1
由交换律得: P(B ∩ A) = P(B) * P(B | A) ---------- 2
联立1、2公式得:
P(A | B) = P(A) * P(B | A) / P(B),即贝叶斯定理
1.3历时诠释:
贝叶斯定理的另一种理解思路:它给我们提供的是一种根据数据集D的内容变化更新,且假设概率H的方法,称之为“历时诠释”。“历时”意味着某些事情随着时间而发生,即概率随着看到的新数据而变化。将贝叶斯公式改写为:
P(H | D) = P(H) * P(D | H) / P(D)
上述公式每个参数的解释:
P(H)成为先验概率,即在的到新数据前某一假设的概率,或理解为,在没有数据样本前通过自己已有的背景知识主观假设的概率,如抛硬币,正反面的概率为50%。
P(H | D)称为后验概率,在D发生后H的条件概率,理解为给定样本数据D时,假设H的后验概率,我们需要计算的概率。
P(D | H)称为似然度,是在假设H下得到的一数据概率,也可理解为H为正确假设时,观察样本数据D的概率。(一般可根据假设H从问题中计算得到)
P(D)称为标准化常量,即不随着假设概率而改变的一数据概率,也可理解为样本数据D的先验概率。(可由全概率公式计算得到)
由贝叶斯公式可以看出,贝叶斯公式综合了先验信息和样本数据,即可以避免只使用先验数据可能带来的主观偏见,也可以避免缺乏样本数据时需要的大量盲目搜素与计算。
贝叶斯应用:
一种诊断某癌症的试剂,临床试验如下:癌症患者实验结果是阳性的概率为95%,非癌症患者实验结果是阴性的概率为95%。现用这种试剂在某社区进行癌症普查,设该社区癌症发病率为0.5%,问某人反应为阳性时,该如何判断是否患有癌症?
解:设A表示“反应为阳性”的事件,B表示“被诊断患有癌症”的事件,B1 = B,B2 = B的互斥事件(即没有患癌症的事件) .
P(A | B1) = 95%, P(A | B2) = 0.05%, (样本似然度)
P(B1) = 0.005%, p(B2) = 0.995%, (样本先验概率)
P(A) = P(A | B1) * P(B1) + P(A | B2) * P(B2) (样本标准化常量,由全概率事件计算而得)
检查为阳性患癌症的概率为:
P(B1 | A) = P(B1) * P(A | B1) / P(A)
= 0.087 = 8.7%
类似可计算出检查为阳性没患癌症的概率为:P(B2 | A) = 0.913 = %91.3
根据上述两种原因发生的概率来看,某人真正患有癌症的概率很小。