统计学与数据科学中的概率方法
在数据科学领域,统计学是一项至关重要的工具,它能帮助我们理解数据、做出决策以及发现隐藏在数据背后的规律。本文将深入探讨一些重要的统计概念和方法,包括Benjamini - Hochberg程序、排列测试、贝叶斯推理等,并通过实际案例和练习来加深理解。
1. Benjamini - Hochberg程序
Benjamini - Hochberg程序的主要目标是最小化错误发现率(false discovery rate)。它通过仅在$p_i ≤αi/m$时接受$p$值来实现这一目标。这里,蓝色曲线表示排序后的$p$值,对角线则定义了$p$值具有显著性的临界值。
当我们将$p$值从左到右按升序排列时,如果接受所有小于$α$的$p$值,可能会接受过多的结果。这就是Bonferroni提出校正方法的原因。然而,要求所有$p$值都满足Bonferroni校正的标准(即曲线与$α/m$的交点)又过于严格。
Benjamini - Hochberg程序认识到,如果很多值在某个标准下确实具有显著性,那么其中一定比例的值应该在更高的标准下也具有显著性。图中的对角线恰当地实施了这种质量控制水平。
2. 婚礼上的年龄谜题
在一场美丽的婚礼上,主人公突然发现自己比在场的大多数人都年轻。这一现象引发了思考,究竟是偶然因素导致这么多年长的人进入房间,还是有其他原因呢?
为了解决这个问题,我们需要计算概率。根据Wolfram Alpha的数据,在美国3.091亿人口中,有7710万人年龄在55岁及以上,即约25%的人口比主人公年长。那么,随机选择251个美国人,其中大多数人年龄超过55岁的概率为:
超级会员免费看
订阅专栏 解锁全文
3094

被折叠的 条评论
为什么被折叠?



