统计学基本原理

本文介绍了统计学基本原理,包括测量尺度、均值、中位数、众数及离散趋势的衡量。深入探讨了统计推断,如卡方检验、t检验和方差检验在假设检验中的应用,讲解了其重要性和应用场景。此外,还提到了抽样方法和数据分析的目的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

第一节 数据分析相关概念

一、测量尺度

二、均值

三、中位数、众数

四、极差和标准差

第二节 统计推断/假设检验

第三节 抽样方法

第四节 卡方检验

1、卡方检验的重要性

2、卡方检验的应用场景

1) 比例分布检验

2)二项式检验

3)K-S 检验

4)游程检验

5) 独立样本非参数检验

6)配对样本非参数检验

7)交叉分析(列联表分析)

卡方检验结果解读:

第五节 t检验

1)单样本t检验

2)独立样本均值t检验

3)配对样本均值t检验

第六节 方差检验

1、单因素方差检验

2、多因素方差检验


数据分析的目的1:对历史数据的分析,分析历史数据为什么呈现这样的特征

2:用历史总结的经验来预测未来

可用的手段:1、描述性统计 2、推断性统计

人工智能3大领域:统计学、机器学习、深度学习

第一节 数据分析相关概念

一、测量尺度

1、定类(nominal)

功能:分类作用,比如性别

2、定序 (ordinal)

功能:分类、排序作用,比如喜欢的艺人、年级

3、定距(不止可以分类、排序,还可以加减,但是不能乘除)

功能:分类、排序、加减,比如温度

4、定比(scale)

功能:分类、排序、加减、乘除,比如年龄

定距和定比相比,一般没有绝对零点

定类与定序合成分类变量,定距与定比合成连续变量。

分类变量的描述统计方法只能用频次统计,连续变量的描述统计方法既可以用频次统计,也可以均值、标准查。

二、均值

算术平均

几何平均,针对率或者比例这类数值要计算多个数值均值时,正常0-1之间,必须是正数。在计算多年的平均增长率时还会遇到一个指标,复增长率。

调和平均,可能用在数据中较多数值聚集在最小值附近(右偏:波峰在左边),原因可能是因为调和平均相对于算术平均、几何平均更小。

调整平均(或称trim平均),可以去除一定比例(通常是5%)的最大值和最小值的原因是:因为这些值很可能是异常值。

三、中位数、众数

1、中位数:当一组序列数据之间差异较大时,导致平均值代表性较弱,可通过中位数来表示数据的集中趋势。

2、平均值、中位数通常应用在连续变量中,既数值型变量;众数即可以应用在连续变量中也可以应用在分类变量中。

ps:波峰在右边就是左偏,波峰在左面就是右偏

四、极差和标准差

衡量离散趋势,数据离散趋势代表了数据中包含的信息量。

1、如果希望比较两组数据的离散趋势,不能直接比较两组数据的标准差,因为两组数据的数量和均值不同。通常选用离散系数来进行比较。

离散系数:标准差/均值,其实就是除以一个量纲,量纲就是均值。

2、标准差计算公式中有的除以n,有的除以n-1,但计算总体数据标准差时除以n,通过样本数据计算总体标准差时除以n-1,原因是人为增大标准差,以提高代表性。

第二节 统计推断/假设检验

1、大数定律、中心极限定理

大数定律:样本n越大,样本均值几乎必然等于均值

中心极限定理:当样本N逐渐趋于无穷大时,N个抽样样本的均值的频次逐渐趋于正态分布

标准差与标准误区别:

        标准误:是抽的样本与总体间的差异程度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值