概率建模与数据分析:从学生作弊到航天灾难
1. A/B 测试与决策优化
在决策过程中,如果某一概率过高,影响到决策的舒适度,我们可以对站点 B 进行更多试验。因为站点 B 初始样本较少,每个额外的数据点对站点 B 的推断“效力”贡献比站点 A 更大。我们可以通过调整参数 true p A、true p B、N A 和 N B,观察 delta 的后验分布。这种 A/B 测试方式比假设检验更自然,假设检验往往给从业者带来更多困惑。
2. 应对社会数据中的不诚实问题
2.1 问题提出
社会数据存在特殊性,人们在回答问题时并不总是诚实,这给推断带来了额外的复杂性。例如,直接询问“你是否在考试中作弊过”,得到的答案必然存在一定比例的不诚实情况。可以确定的是,真实的作弊率低于观察到的比率(假设人们只在未作弊时说谎)。
2.2 引入二项分布
为了解决这个问题,我们引入二项分布。二项分布是一种非常流行的分布,因其简单且实用。它有两个参数:N 表示试验次数或潜在事件的实例数量,p 表示单次试验中事件发生的概率。其概率质量分布为:
[P(X = k) = \binom{N}{k} p^k (1 - p)^{N - k}]
如果 X 是参数为 p 和 N 的二项随机变量,记为 (X \sim Bin(N, p)),则 X 是 N 次试验中发生的事件数量((0 \leq X \leq N))。p 越大(在 0 到 1 之间),事件越有可能发生,二项分布的期望值为 (Np)。
以下是绘制不同参数下二项分布质量概率分布的代码:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



