世界上有三种谎言:谎言、弥天大谎和统计数据。
——迪斯雷利(Disraeli)
让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。
——阿蒂默斯·沃德(Artemus Ward)
引言
你所看见的未必是真实情况,事实上这些数据要么被过于夸大,要么被隐瞒。
第一章 带有偏差的样本
在处理各类问题时,抽样过程是你所接触到的统计学主要内容的核心。
可悲的是,各种各样的结论就是从这些要么带有偏差,要么过于微小或二者兼而有之的样本中获得的,而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。
为了更具价值,一份基于样本的报告必须使用一个具备代表性的样本,该样本必须排除产生偏差的任何可能性。
导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。
一个更为经济划算的替代方法是分层随机抽样法,该方法在民意测验和市场调研等领域被普遍采用。
调查人员的构成往往会以一种微妙的方式影响到调查结果。
不同的调查员可能会选择不同的群体进行调查,也可能是造成偏差的原因。
第二章 精挑细选的平均数
每次使用了不同种类的平均数
未加限定的平均数其实是毫无意义的,然而一般与收入挂钩的数据多半如此。
第三章 没有透露的小小数据
只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。
有时,样本中单位的数量看上去已经很多,但实际却不足。
如果时间足够,一场感冒自己就会痊愈。
这就是要看看没有被透露的小小数据——假设你是个外行,不懂其中的奥秘,但如果你对这一数据能有所留意,你就能看穿这种别有用心的手段。
如果“正常”和平均数都能标注上一个范围,那么就能避免许多不必要的误会。
没被透露的小小数据之所以带有欺骗性,是因为人们经常意识不到它的缺失,当然这也是成功的秘诀所在。
在没有重要数据的情况下,千万不要轻易相信一个平均数、一张图表或一条趋势线。否则,你就会像一个只凭平均气温选择露营地的人一样盲目。
第四章 无事瞎忙
样本代表整体数据的精确度可以用数字来表示:概率误差和标准误差。
忽视抽样调查中隐藏的误差会导致一些非常愚蠢的行为。
第五章 惊人的图形
眼睛无须去“理解”被省略的部分,所以这细微的上升在视觉上就变成了大幅增长。
第六章 一维图形
但是柱形图也是一种欺诈的手段。你需要对这些情况持有一定的怀疑
原因就在于第二个钱袋不仅高度是第一个的2倍,连宽度也是2倍。
相同物体的体积会随着立方体任一维度的变化而变化。
这就是我巧妙的图形给你的印象。说是“2倍”,但我留给你的持久印象却是令人振奋的8∶1。
第七章 看似相关的数据
如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装它们是一样的。
还有许多办法能计算某些事物,然后将其描述为其他事物。总的来说,就是要把两种看似相同,实则不然的事物放到一起。
并非所有“看似相关的数据”都是蓄意欺瞒的产物。
第八章 因果颠倒
似乎还有一种可能性更大的说法:这两件事互不为彼此的因果,它们都是某个第三事件的产物。
为了避免陷入这种因果谬误,从而相信许多似是而非的东西,你需要严格检验各种与相关性有关的说明。相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。
一种是机缘巧合之下得出的相关。你可以通过这种方法将一组数据放到一起来证明一些不可能的事。
还有一种更为常见的类型叫“协变关系”,指的是两个变量之间确实存在相关性,但无法确定哪个是因,哪个是果。
两个变量之间不存在因果关系,但变量之间的确存在着某种相关性。
必须要谨记:就算某种相关性存在,并有真实的因果关系,你仍不能凭此进行决策。
一个真实的相关被拿去支持一个未经证实的因果关系。
这些不能说明因果关系的证据被人们不加辨别、频繁地使用,最后连我们的常识都无法撼动它们。
第九章 如何操纵统计
通过利用统计材料给他人传递错误的信息,这一行为在统计学上可称为人为操纵。我们将这个概念用一个词来表示(尽管不是很好):统计操纵。
为了给声名狼藉的统计制造一个精准的假象,你应该考虑使用小数。
百分数也是一片滋生混乱的沃土。就像那个给人以深刻印象的小数一样,百分数也给不准确的东西镀上了一层精准无比的光环。
将一些不该相加的东西加在一起就会产生许多愚蠢的错误和强词夺理的狡辩。
买了20样东西,发现每一样的价格都比去年上涨了5%,那么加到一起就是100%,所以生活的成本翻了一番。这都是瞎扯!
第十章 如何反驳统计数据
可以提出5个简单的问题来探讨,从而通过问题的答案来避免被一些明显似是而非的东西所迷惑。
是谁这么说?
首先,要找的第一样东西是偏差。
要找有意识的偏差。这种偏差可以体现为直接的错误陈述或是含糊不清的措辞,这两种手段都很高明,一般情况下人们不会觉得它们有问题。
更要注意那些无意识的偏差,因为它的危害更大。
他怎么知道?
当你看到关于“相关性”的报道时也要想想:它的规模是否大到足以说明问题?
漏掉了什么?
尤其是当数据来源关系到利益问题时,数据缺乏就会让人对整件事情产生怀疑。
要留心那些未加说明的平均数,因为无论在什么时候,均值和中位数都有着本质的差别。
有时,材料只给出了百分数,却没有给出原始数据,这种数据也带有欺骗性。
有时候被漏掉的还有导致变化发生的因素。这种遗漏往往暗示着其他因素才是导致变化发生的主要原因。
有人偷换了概念吗?
在分析一份统计数据时,你要注意在原始数据和最终结论之间有没有什么地方被偷换了概念。
这是否合乎情理?
能给人留下深刻印象的精确数据也可能是与常识相悖的。
--------------------------文档信息--------------------------
读书笔记由博主整理编辑,供非商用学习交流用
如本文涉及侵权,请随时留言博主,必妥善处置
版权声明:非商用自由转载-保持署名-注明出处
署名(BY) :dkjkls(dkj卡洛斯)
文章出处:http://blog.youkuaiyun.com/dkjkls