一些奇奇怪怪的知识点_95%概率无影响-优快云博客

一、置信区间

转载于知乎高赞回答如何理解 95% 置信区间？，此答案和教材中介绍基本一致，更加通俗易懂。
首先，重要的事情说三遍：

置信区间是随机变量！
置信区间是随机变量！
置信区间是随机变量！

最可能出现的对置信区间的错误理解：95%置信区间，是指有95%的概率包括真实参数。

理解置信区间，有几个基础统计概念要搞清楚，抛开这些概念去理解置信区间就是扯淡。置信区间是谁的置信区间？置信区间是参数的置信区间。参数又是什么的参数？参数是总体的参数。置信区间是怎么算的？是通过样本（sample）算的，样本和总体又有什么联系？

总体：就是全部数据。可以假设总体服从某一分布，比如正太分布。一个正太分布是由两个参数唯一确定的，平均值和方差，这两个参数都是固定的数值，而不是变化的；
样本：样本就是从总体里面得到的数据，比如从一个正太分布，我们可以得到0.54，这个0.54就是一个样本。很重要的一点：一个样本未必只有一个值，我们完全可以得到一个样本(0.1,-5,12),这个样本有3个值，3 就是这个样本的size；
参数估计：实际中，总体什么分布往往不知道，但是我们可以做假设，比如假设人的体重是正太分布，做了这个假设，那接下来的问题是这个正太分布参数是多少？也就是平均值和方差怎么算，解决这个问题就是参数估计，统计里有很多方法，不展开说了。但是参数估计是从样本来估计的，这是关键的一点：样本 $\longrightarrow$ 总体的参数；
不同样本估计的参数一样么？没有理由一样，所以问题来了，不同样本估计的总体不一样，怎么办？区间估计，也就是给定一个区间，让总体参数被包括其中。但是总体参数一定被包括么？显然也不一定，这取决于样本，如果恰好选了某些样本，可能估计的参数和总体相距甚远;
最后一点，也是最重要一点，很多自称搞统计的人也理解错误，就是怎么解释置信区间呢？比如给定一组参数，算出来总体平均值的置信区间[a,b]，是不是说总体平均值有95%的概率在这个区间内？这样理解是逻辑混乱的结果，没搞懂什么是常数，什么是随机变量这些基本问题。

首先，总体参数，是一个常数，只是你不知道，是unknown constant，不知道不代表随机，完全两个概念。然后，一旦估计出区间，这区间也是确定的，参数也是确定的，不存在任何随机问题，那么现在大家应该清楚答案最开始说对置信区间最大的误解“95%置信区间是指有95%的概率包括真实参数”的问题在哪了。问题就在于，当估计出置信区间之后，参数是否在这个区间中，就是固定的，不存在概率问题。
那么正确的解释是怎样的？可以有很多种，这里只说一种解释：95%置信区间，意味着如果你用同样的步骤，去选样本，计算置信区间，那么100次这样的独立过程，有95%的概率你算出来的区间可以包括真实参数值。

下图就是一个例子，抽样100次，计算总体参数的置信区间100次，多数情况置信区间覆盖了真实值，但是也有没有的情况。
在这里插入图片描述

二、全概率公式与贝叶斯公式

1、全概率公式

全概率公式：
$P(A)=P(AB_{1})+P(AB_{2})+...+P(AB_{n})$
$P(A)=P(B_{1})P(A|B_{1})+P(B_{2})P(A|B_{2})+...+P(B_{n})P(A|B_{n})$

全概率公式的意义：
事件 $A$ 的发生有各种可能的原因 $B_{i}(i=1,2,...,n)$ ，如果 $A$ 是由原因 $B_{i}$ 引起，则 $A$ 发生的概率为 $P(AB_{i})=P(B_{i})P(A|B_{i})$ ，每一个原因都可能导致 $A$ 的发生，则 $A$ 发生的概率是全部引起 $A$ 发生的原因的概率总和，即为全概率公式。