1. Pythn数据分析 - 概率统计

一、统计学的定义和作用
统计学是一个门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始终。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。
统计学是通过数据来进行分析和推断的。因此,统计研究的基础是数据。这些数据的特点是,对于每一个数据而言,都具有不确定性,我们需要抽取一定数量的数据,才可能从中获取信息。

二、统计学中的一些概念
总体:
总体是指相同性质的个体组成的集合 。即根据一定目的确定的所要研究事物的全体。

样本:
    从总体中获得的个体或群体。从总体中抽取出来,作为代表这一总体的部分单位组成的集合体。

特征统计:
    特征统计是数据科学中最常用的统计学概念。它是在研究数据集时经常使用的统计技术,包括偏差、方差、平均值、中位数、百分数等等。

概率分布:
    将概率定义为一些事件将要发生的可能性大小,以百分数来表示。在数据科学领域中,这通常被量化到0到1的区间范围内,其中0表示事件确定不会发生,而1表示事件确定会发生。

三、概率抽样
1.简单随机抽样
2.系统抽样
3.分层抽样
4.整群抽样

简单随机抽样:
    简单随机抽样(Simple random sampling)是其它抽样方法的基础,因为它在理论上最容易处理,而且当总数N不太大时,实施起来并不困难。
    但在实际中,若N相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部N个单位的抽样框(抽样范围,如学生花名册);
    其次用这种抽样得到的样本单位较为分散,调查不容易实施。
    特点:
        1.每一个样本被抽中的概率是相等的,且每一个样本个体完全独立	
        2.被抽取的样本的总体个数N是有限的
        3.简单随机样本数n小于等于样本总体的个数N。
        4.简单随机样本是从总体中逐个抽取的。
        5.每一个个体被抽中的概率为n/N

    简单随机抽样分类:
        重复抽样:每次抽中的单位仍放回总体,样本中的单位可能不止一次被抽中
        不重复抽样:抽中的单位不再放回总体,样本中的单位只能抽中一次,比如:社会调查采用不重复抽样。

    抽样方法:
        1.直接选取法:即从总体中直接随机抽选样本。如从货架商品中随机抽取若干商品进行检验
        2.抽签法:对每一个个体编号,然后将号码写在大小和形状都相同的签子上,之后随机抽取。
        3.随机数表法:即利用随机数表(将数字随机排列做成表)作为工具进行抽样。

系统抽样:
    系统抽样法又叫做等距抽样法或机械抽样法,是依据一定的抽样距离,从总体中抽取样本。
    要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。

    步骤:
        1.编号:先将总体的N个个体编号,有时可直接利用自身个体所带的号码,如学号、门牌号等。
        2.分段:确定分段间隔k,对编号进行分段,当N/n(n是样本容量)是整数时,取k=N/n。
        3.使用简单随机抽样确定第一个个体编号
        4.成样:按照一定的规则抽取样本,通常是将l加上间隔k得到第二个个体编号(l+k),再加上k得到第三个个体编号(l+2k),依次进行下去,直到获取整个样本。

分层抽样:
    分层抽样法,也叫类型抽样法。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。
    分层抽样的特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。

    步骤:
        1.把总体分成多个互不相关的组,分组的标志与关心的总体特征相关
        2.确定在每个组占总体的比例(如年级已被确定为一个显著的特征,那么总体中小学生占多少比例,初中生占多少比例)。利用这个比例,可计算出样本中每组(层)应调查的人数。
        3.对组进行简单随机抽样

整群抽样:
    整群抽样是指整群地抽选样本单位,对被抽选的各群进行全面调查的一种抽样组织方式
    步骤:
        1.确定分群的依据,即根据什么指标来分群
        2.总体(N)分成若干个互不重叠的部分,每个部分为一群。
        3.据各样本量,确定应该抽取的群数。
        4.采用简单随机抽样或系统抽样方法,从多个群中抽取确定的群数。

整群抽样与分层抽样的区别:
    分层抽样的样本是从每个层内抽取若干单元或个体构成,即总样本分布在不同的层次中。而整群抽样则是要么整群抽取,要么整群不被抽取。

四、抽样方法的选择
简单随机抽样:
使用起来比较简单,适用于总体个数较少的情况。

系统抽样:
    适用于当总体数量和样本数量较多,且个体之间没有明显差异的情况。

分层抽样:
    适用于样本是由差别比较大的几部分组成的情况。

整群抽样:
    整群抽样适用于对各群内部的单位变异较大,而群间差异较小的总体进行抽样调查。

五、统计指标
统计指标是十分重要的统计学基本范畴。对统计指标通常有两种理解和使用方法:
一是用来反映总体现象总体数量状况的基本概念,例如年末全国人口总数、全年国内生产总值、国内生产总值年度总长率等。
二是反映现象总体数量状况的概念和数值。例如,2001年我国年末总人口数为127.627万人、全社会固定资产投资增长率为13%等。

统计指标特点:
    1.数量性			2.综合性			3.具体性

六、统计方法
统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。统计方法可以通过数据来描述事物的规律。

常见的统计分析方法有:
    1.均值是数字列表的总和除以列表中项目的数量。该平均值对于确定数据集的总体趋势或提供数据很有用,均值的另一个优点是它很容易快速计算。
    2.标准偏差是对均值周围数据分布的度量。偏差值越大表示数据分布的离均值越远,即数据分布越散。偏差值越小表示数据越密集
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值