统计学习方法梳理

1.统计学基本知识

总体与个体

数据存在总体与个体的关系,现实生活中往往用样本数据来估计总体数据的趋势,用以估计总体数据的特征的指标有众数、中位数、均值、方差、标准差等。下面将介绍这些指标。

设总体数据有N个,样本数据有n个(n<=N)

众数:一组数据中出现次数最多的那个数,就是众数,众数可不唯一。

中位数:将一组数据从大到小或者从小到大的排序,中位数等于位于数据中间的数。有两种情况,设有N个数据,当N是偶数时,中位数是中间两个数的平均值,即等于\frac{1}{2}*(x_{\frac{N}{2}}+x_{\frac{N}{2}-1});当n是奇数时,中位数是中间的数据,即等于x_{\frac{N+1}{2}}

样本均值:计算样本数据的平均值。

                                                                           \overline{x} =\frac{1}{n}*\sum_{i=1}^{n}xi

总体均值:计算总体数据的平均值。

                                                                          \mu =\frac{1}{N}*\sum_{i=1}^{N}xi

样本方差:计算样本数据的方差。

                                                              S^{2} =\frac{1}{n-1}*(\sum_{i=1}^{n}(xi-\overline{x})^{2})

总体方差:计算总体数据的方差。

                                                                 \sigma ^{2} =\frac{1}{N}*(\sum_{i=1}^{N}(xi-\mu )^{2})

样本方差和总体方差的公式不一样,这样才满足样本的无偏估计量是总体方差,便于后续进行估计总体。

                                                                            E S^{2}=\sigma ^{2}

 

2.二项分布

定义二项分布:在n次伯努利试验中正好出现k次成功的概率为b(k;n,p):

                                                                    b(k;n,p)=\binom{n}{k}p^{k}q^{n-k}

其中,q=1-p。

b(k;n,p),k=1,2,3,...n,称为二项分布。

均值:np

方差:npq

 

3.泊松分布

在独立试验中,以p_{n}代表事件A在试验中出现的概率,它与试验总数n有关,如果np_{n}\rightarrow \lambda,则当n\rightarrow \infty时,

                                                                    b(k;n,p)\rightarrow \frac{\lambda ^{k}}{k!}e^{-\lambda }

形如 

                                                            p(k;\lambda )=\frac{\lambda ^{k}}{k!}e^{-\lambda },k=0,1,2,......

称为泊松分布,\lambda称为它的参数。

均值:\lambda

方差:\lambda

 

4.大数定律

根据百度百科,总结一下大数定律。大数定律需要注意两点,一是“大数”,即试验的次数达到无穷大,二是“定律”,一种符合自然规律的,叫做定律,而不是定理。

大数定律是一种描述当试验次数很大时所呈现的概率性质的定律。下面将列举三个重要的定律。

切比雪夫大数定律

设  ,....是一列相互独立的随机变量(或者两两不相关),他们分别存在期望  和方差  。若存在常数C使得:

 则对任意小的正数 ε,满足公式:

                                                                      

该定律阐述了一种规律:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。

 

伯努利大数定律

设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,满足公式:

                                                                            

该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。

 

辛钦大数定律

辛钦大数定律是比较常用的大数定律。设  为独立同分布的随机变量序列,若  的数学期望存在,则服从大数定律,即对任意的ε>0,满足公式

                                                                       

该定律说明满足独立同分布的一系列数,可以用其均值来估计总体数据的均值。

 

5.正态分布

正太分布,又称为高斯分布。假设一随机变量X服从一个期望为\mu,方差为\sigma^{2}的正太分布,则可记为

                                                                         X\sim N(\mu ,\sigma ^{2})

\mu=0\ ,\sigma =1时,称X\sim N(0 ,1)为标准正太分布。

一维正太分布:

满足一维正太分布的概率密度函数满足

                                                                  f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值