统计学知识

最新推荐文章于 2024-07-10 10:53:19 发布

原创最新推荐文章于 2024-07-10 10:53:19 发布 · 735 阅读

2 ·

CC 4.0 BY-SA版权

★★★统计学同时被 2 个专栏收录

3 篇文章

订阅专栏

★★ 统计学基础

1 篇文章

订阅专栏

title: “统计学知识”
author: “”
date: “2018年2月27日”
output: word_document

knitr::opts_chunk$set(echo = TRUE)

总结统计学中基础知识，以原理叙述为主。

数据度量

集中趋势的度量

分类数据—众数(mode)：一组数据中出现次数最多的变量值。
顺序数据—中位数：一组数据排序后处于中间位置上的变量值。
顺序数据—四分位数：一组数据排序后处于25%和75%位置上的值。
数值数据—平均数：分为简单平均数、加权平均数等，不赘~
众数、中位数和平均数的关系

这里写图片描述

离散程度的度量

分类数据—异众比率：非众数组的频数占总频数的比例
顺序数据—四分位差：上下四分位数的差。
数值型数据—极差、方差、标准差：不赘。

偏态和峰态的度量

偏态(skewness)：是对数据分布对称性的测度，对称分布则偏态系数等于0，明显不等于0表名非对称的。大于0表示右偏（定义存在歧义，上图中的右偏，有的地方称之为左偏）。
峰态(kurtosis)：是对数据分布平峰或者尖峰程度的测度，标准正态分布峰态系数为0，大于0为尖峰分布，数据分布更集中，反之扁平分布。

##　概率论

条件概率

$P\left( {A|B} \right) = \frac{{P\left( {AB} \right)}}{{P\left( B \right)}}$

全概率公式

$P\left( B \right) = \sum\limits_{i = 1}^n {P\left( {{A_i}B} \right)} = \sum\limits_{i = 1}^n {P\left( {{A_i}} \right)} P\left( {B|{A_i}} \right)$

贝叶斯公式

$P\left( {{A_i}|B} \right) = \frac{{P\left( {{A_i}B} \right)}}{{P\left( B \right)}} = \frac{{P\left( {{A_i}} \right)P\left( {B|{A_i}} \right)}}{{\sum\limits_{j = 1}^n {P\left( {{A_j}} \right)} P\left( {B|{A_i}} \right)}}$

三大分布

正态分布

$\sim N\left( {\mu ,{\sigma ^2}} \right)$ ：随机变量 $X$ 服从均值为 $\mu$ 、方差为 ${\sigma ^2}$ 的正态分布。其中 $\mu$ 决定图形的中心位置， $\sigma$ 决定图形中峰的陡峭程度。 $\sigma$ 越大图形越平缓，反之陡峭(陡峭意为分布集中，所以方差小)。密度函数如下：
$f\left( x \right) = \frac{1}{{\sigma \sqrt {2\pi } }}\exp \left( { - \frac{1}{{2{\sigma ^2}}}{{\left( {x - \mu } \right)}^2}} \right)$

卡方分布

设随机变量 ${X_1},{X_2}, \ldots ,{X_n}$ 相互独立，且 ${X_i}$ 服从标准正态分布 $N (0, 1)$ ，则随机变量的平方和$\sum\limits_{i = 1}^n {X_i^2} $服从自由度为$ n $的$ {\chi ^2} $分布。自由度为$ n $的$ {\chi ^2} $分布数学期望为$ n$，方差为 $2 n$

t分布

t分布也称为学生氏分布。设随机变量 $\sim N\left( {0,1} \right),Y \sim {\chi ^2}\left( n \right)$ ，且 $X$ 与 $Y$ 独立，则
$\frac{X}{{\sqrt {Y/n} }}$
该分布为 $t$ 分布。

F分布

设随机变量 $Y$ 与 $Z$ 相互独立，且 $Y$ 和 $Z$ 分别服从自由度为 $m$ 和 $n$ 的 $\chi ^2$ 分布，随机变量 $X$ 有如下表达式;
$\frac{{Y/m}}{{Z/n}} = \frac{{nY}}{{mZ}}$
则称 $X$ 服从第一自由度为 $m$ ，第二自由度为 $n$ 的 $F$ 分布，即为 $F (m, n)$ ，简记为 $\sim F\left( {m,n} \right)$

大数定律和中心极限定理

大数定律

讨论的是在什么条件下，随机变量序列的算术平均值依概率收敛到其均值(期望)的算数平均。
即随机变量 ${X_n}$ 满足：
$\mathop {\lim }\limits_{n \to \infty } \;P\left\{ {\left| {\frac{1}{n}\sum\limits_{i = 1}^n {{X_i} - \frac{1}{n}\sum\limits_{i = 1}^n {E\left( {{X_i}} \right)} } } \right| < \varepsilon } \right\} = 1,for\;\forall \varepsilon > 0$

中心极限定理

研究随机变量和的极限分布在什么条件下为正态分布。如林德伯格-莱维中心极限定理：
设 ${X_n\}$ 是独立同分布的随机变量序列，且 $E{X_i}=\mu$ , $Var(X_i)={\sigma}^2$ 存在，则当 $n$ 足够大时， $\sum\limits_{i = 1}^n {{X_i}}$ 近似服从 $N(n\mu,n\sigma^2)$ 。

简单的统计推断

P值

当原假设为真时所得到的样本观察结果或者更极端结果出现的概率。

假设检验

基本思想为小概率反证法，流程为：先提出原假设，再用适当的统计方法确定假设成立的可能性大小(P值)，如果可能性小(小于事先设定的显著性水平),则认为原假设不成立，这里只能说明现有数据不能支撑原假设，但是不能说明备注假设成立。

列联表分析

研究两个类别型变量之间是否独立的方法。原假设为两变量独立，通常通过构建列联表进行计算分析。
简单叙述原理：原假设两个类别型变量是独立的，那么可以通过边际概率的乘积，计算独立时各种组合发生的概率，继而求出所谓的期望频数，如果期望频数和实际频数相差很大，则认为独立。贴个书上的例子：
这里写图片描述

这里写图片描述

方差分析

方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析的主要思想是误差分解，总误差分解为组内误差和组间误差，直观的想法：如果分类型自变量对数值型因变量没有显著影响，那么组间均方和组内均方误差应该比较接近。
以单因子方差为例，简述相关内容。

方差分析基本假定

每个总体服从正态分布
每个总体的方差必须相同(统计软件会输出方差同质性检验，如果不一致，参看另外一个统计量即可)
观测值是独立的(一般由实验或者抽样满足)
这三个假定成立的前提下，分析自变量对因变量是否有影响形式上转换为检验自变量的各个水平(不同的总体)的均值是否相等。因此原假设为自变量对因变量没有显著影响，即各个总体的均值全部相等。

统计量的构造

前面提到通过对总体误差的分解得到组间误差和组内误差，两者除以对应的自由度，得到组间均方(MSA)和组内均方(MSE)，构造统计量 $\frac{{MSA}}{{MSE}} \sim F\left( {k - 1,n - k} \right)$ 。

回归

列联表分析可以看做研究类别型自变量和类别型因变量的关系，方差分析则是类别型自变量和数值型因变量的关系，那么回归分析可以看做研究数值型自变量和数值型因变量的关系。

基本假定

误差项服从均值为0的正态分布
误差项之间相互独立
误差项的方差对所有的 $x$ 的值都不变

逻辑

主要思想是构造误差平方和为目标函数，通过最小二乘方法求出目标函数最小时候的各个参数。通过构造不同的惩罚项，可以变形为岭回归和lasso回归。具体不赘~

求参

损失函数的hesse matrix是正定矩阵，所以损失函数是凸函数
正定矩阵定义：实对称+ $A^TXA>0$
梯度下降法or随机梯度下降

逻辑回归

logstic变换

$\begin{array}{l} P\left( {Y = 1|X} \right) = \frac{{\exp \left( {wx} \right)}}{{1 + \exp \left( {wx} \right)}}\\ P\left( {Y = 0|X} \right) = \frac{1}{{1 + \exp \left( {wx} \right)}}\\ \log \left( {\frac{{P\left( {Y = 1|X} \right)}}{{P\left( {Y = 0|X} \right)}}} \right) = wx \end{array}$