任务安排
1、机器学习导论 8、核方法
2、KNN及其实现 9、稀疏表示
3、K-means聚类 10、高斯混合模型
4、主成分分析 11、嵌入学习
5、线性判别分析 12、强化学习
6、贝叶斯方法 13、PageRank
7、逻辑回归 14、深度学习
贝叶斯方法(Bayes Methods)
Ⅰ 先验概率与后验概率
在贝叶斯统计推断论中,一个未确定数目的先验概率分布(一般简称为先验)是一种表达了某人对于该数目的信仰的一种概率分布,这种信仰是没有考虑到一些(当前的)证据的;
先验概率即边缘概率,通俗点理解为“第六感”,它往往作为"由因求果"问题中的“因”出现的概率
在贝叶斯推断中,一个随机事件的后验概率是指:当与事件相关的一些证据或背景也被考虑进来时的条件概率。“后验”在这个语境下指在考虑了与要被检验的特定事件相关的证据;
后验概率即条件概率,即你收集证据以后,佐证了你的直觉,或是开始质疑直觉,是“由果溯因”问题中的"果"
比如你开了一局王者荣耀,刚好在一楼,因为你每个位置的胜率都只有53%(先验概率),但是你心血来潮想玩打野,就在选下去的一刹那,二、三、四、五楼的队友都发出了胜率,打野73%、射手66%、中单65%、边路57%,为了团队,你忍辱负重,改选了一手辅助,你感觉,这把稳了,胜率>>53%(后验概率)
这就是先验概率和后验概率的区别:先验概率基于已有知识对随机事件进行概率预估,但不考虑任何相关因素—— P ( c ) P(c) P(c)。后验概率基于已有知识对随机事件进行概率预估,并考虑相关因素—— P ( c ∣ x ) P(c|x) P(c∣x)
Ⅱ 贝叶斯公式
贝叶斯方法是一种非常神奇,由后验概率求先验概率的方法,即科学地预知未来。其核心就是利用我们所熟知的——贝叶斯公式: P ( c ∣ x ) = P ( x , c ) P ( x ) = P ( x ∣ c ) P ( c ) P ( x ) P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(x|c)P(c)}{P(x)} P(c∣x)=P(x)P(x,c)=P(x)P(x∣c)P(c) 虽然贝叶斯公式很好用,但通常都是建立在,我们的题目是设计好了的情况下,但是实际生活中的问题,往往不会按我们期望的那样出现,贝叶斯公式也会有乏力的时候
例①:以下是某门诊截至目前的问诊情况(某样本集,症状、职业都是该样本集的特征,疾病是决策结果(标签))
ID | 症状 | 职业 | 疾病 |
---|---|---|---|
1 | 打喷嚏 | 护士 | 感冒 |
2 | 打喷嚏 | 农夫 | 过敏 |
3 | 头疼 | 建筑工人 | 脑震荡 |
4 | 头疼 | 建筑工人 | 感冒 |
5 | 打喷嚏 | 教师 | 感冒 |
6 | 头疼 | 教师 | 脑震荡 |
现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
由贝叶斯公式,我们可以很容易得到 P ( 感 冒 ∣ 打 喷 嚏 , 建 筑 工 人 ) = P ( 打 喷 嚏 , 建 筑 工 人 ∣ 感 冒 ) P ( 感 冒 ) P ( 打 喷 嚏 , 建 筑 工 人 ) P(感冒|打喷嚏,建筑工人)=\frac{P(打喷嚏,建筑工人|感冒)P(感冒)}{P(打喷嚏,建筑工人)} P(感冒∣打喷嚏,建筑工人)=P(打喷嚏,建筑工人)P(打喷嚏,建筑工人∣感冒)P(感冒) P ( 感 冒 ) = 1 / 2 P(感冒)=1/2 P(感冒)=1/2 P ( 打 喷 嚏 , 建 筑 工 人 ) = P ( 打 喷 嚏 ) P ( 建 筑 工 人 ) = 1 2 × 1 3 = 1 6 P(打喷嚏,建筑工人)=P(打喷嚏)P(建筑工人)=\frac{1}{2}×\frac{1}{3}=\frac{1}{6} P(打喷嚏,建筑工人)=P(打喷嚏)P(建筑工人)=21×31=61 但是根据表格 P ( 打 喷 嚏 , 建 筑 工 人 ∣ 感 冒 ) P(打喷嚏,建筑工人|感冒) P(打喷嚏,建筑工人∣感冒),我们求出来竟然是——0?,显然这不可能,那么单单靠贝叶斯公式是无法解决此问题了。
那么,就出现了朴素贝叶斯
★Ⅲ 朴素贝叶斯(Naive Bayes)
“朴素”是指:属性条件独立性假设
朴素贝叶斯分类器假设:
所有特征条件独立于决策(特征独立性),(用到了数理统计里的极大似然估计)即
P ( f 1 , . . . , f d ∣ c l a s s ) = ∏ i = 1 d P ( f i ∣ c l a s s ) P(f_1,..., f_d|class)=\prod^d_{i=1} P(f_i|class) P(f1,...,fd∣class)=i=1∏dP(fi∣class)
每个特征条件同等重要(特征均衡性)
有了新的假设,那么我们可以接着解决上面的问题了
P ( 打 喷 嚏 , 建 筑 工 人 ∣ 感 冒 ) = P ( 打 喷 嚏 ∣ 感 冒 ) P ( 建 筑 工 人 ∣ 感 冒 ) = 2 3 × 1 3 = 2 9 P(打喷嚏,建筑工人|感冒)=P(打喷嚏|感冒)P(建筑工人|感冒)=\frac{2}{3}×\frac{1}{3}=\frac{2}{9} P(打喷嚏,建筑工人∣感冒)=P(打喷嚏∣感冒)P(建筑工人∣感冒)=32×31=92故最终答案 P ( 感 冒 ∣ 打 喷 嚏 , 建 筑 工 人 ) = 2 9 × 1 2 1 6 = 2 3 P(感冒|打喷嚏,建筑工人)=\frac{\frac{2}{9}×\frac{1}{2}}{\frac{1}{6}}=\frac{2}{3} P(感冒∣打喷嚏,建筑工人)=6192×21=32这里特别注意一下,
P ( A , B ∣ C ) = P ( A ∣ C ) P ( B ∣ C ) ⇏ P ( A , B ) = P ( A ) P ( B ) P(A,B|C)=P(A|C)P(B|C)\nRightarrow{P(A,B)=P(A)P(B)} P(A,B∣