辛普森悖论理解

最新推荐文章于 2024-10-26 00:54:03 发布

转载最新推荐文章于 2024-10-26 00:54:03 发布 · 275 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yuanquanxi/p/10247734.html

文章标签：

#人工智能

本文深入探讨了辛普森悖论和基本比率谬误，通过具体案例解析了两种统计谬误的形成原因及数学原理。辛普森悖论展示了在分组数据中占优势的一方，在总评中可能失势的现象；基本比率谬误则揭示了在考虑先验概率时，人们常忽视其对阳性结果解释的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

辛普森悖论
基本比率谬误

辛普森悖论

介绍

观察下面表格：

	Treatment A	Treatment B
Small stones	Group 1 93% (81/87)	Group 2 87% (234/270)
Large stones	Group 3 73% (192/263)	Group 4 69% (55/80)
Both	78% (273/350)	83% (289/350)

分析：

治疗方法A在小、大肾结石分类下都比B的康复率高；但是结合在一起观察，B的康复率比A高；

辛普森悖论：在分组比较中都占优势的一方，在总评中有时反而是失势的一方。

分析

1，辛普森悖论成立时，通常是忽略了因果关系(causal relation)；

影响康复率的根本因素是病情严重，而不是治疗方法；

2，分组后观察数据更加清晰；

分组后，组之间的规模大小size差距悬殊，这导致各组权重应该是不同的。

案例中，在轻症患者分类下，方法B虽然处于弱势，但是弱的程度并不大，且B的规模比方法A大，这导致了方法B综合比A强；

从数据综合来看：方法A适用重症，B适用轻症；

数学原理

\[ \left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]