概率基础:从贝叶斯定理到连续概率分布
1. 贝叶斯定理的现实应用
贝叶斯定理在现实世界中有着非常重要的应用,尤其在疾病预测方面。若用代表特定疾病检测结果的随机变量替代症状的随机变量,用特定疾病是否存在的随机变量替代所有疾病的随机变量,就可以利用贝叶斯定理推断在检测呈阳性的情况下,实际患有该特定疾病的可能性。这在大多数医院是常见问题,在新冠疫情爆发的背景下,对流行病学尤为重要。
2. 熵、交叉熵和KL散度
2.1 熵的引入
概率分布能让我们比较各种可能事件的可能性。但即便知道最可能发生的事件,在实验中仍会看到各种事件。为了用一个单一指标来概括概率分布中的所有不确定性,我们引入了熵的概念。
假设有这样一个场景:一位研究人员进行实验(如抛硬币或掷骰子),另一位记录结果,两人通过电话联系。研究人员将实验结果告知记录者,记录者用二进制字符串记录。例如,掷骰子时,若不知骰子是否公平,可将结果1记为“0”,2记为“1”,3记为“10”,4记为“11”,5记为“100”,6记为“101”。若研究人员依次掷出1、2、2、1,记录者会写下“0110”。但实验结束后,研究人员难以解读这个字符串,因为它可能有多种翻译方式。
为避免这种情况,我们采用前缀码,即不同结果的二进制字符串表示不能互为前缀。这样就能实现字符串到结果的唯一翻译。例如,有一个二进制字符串,若已成功将其部分前缀解码为一系列结果,要解码剩余部分(后缀),需先找到序列中的下一个结果。当找到后缀的一个前缀能翻译为一个结果时,根据定义,不存在更小的前缀能翻译为有效结果。然后递归使用此逻辑,直到字符串结束。
若用新的编码方案,将1记为“0”,2记为“10”,3
超级会员免费看
订阅专栏 解锁全文
83

被折叠的 条评论
为什么被折叠?



