统计学基础知识总结_01

一、数据统计分析方法

1.统计学

是一门依托概率论对各种数据进行收集、分类、概括、整理、分类以及解释的应用性学科,根据使用目的的方法,统计学大致可分为两个分支:描述统计学和推断统计学。

2.描述统计学

(1)定义

描述统计学主要用于总结和描述数据的基本特征,是以便利化和信息化的方式对数据进行整理、汇总、显示的一种方法。描述统计学的一种形式是图表法,用可视化的方式让读者较为容易地获取有用的信息。

(2)组成

  • 集中趋势测量
  1. 均值(mean):数据的算数平均数,反映数据的中心位置;
  2. 中位数(media):将数据排序后位于中间的值,反映数据的中间位置;
  3. 众数(mode):数据中出现频率最高的值;
  • 离散程度测量
  1. 方差(variance):数据与均值的平方差的平均值;
  2. 标准差(standard deviation):方差的平方根,表示数据的离散程度;
  3. 范围(range):数据集中最大值与最小值的差;
  • 分布形状测量
  1. 偏度(skewness):衡量数据分布的对称性;
  2. 峰度(kurtosis):衡量数据分布的陡峭程度;

3、推断统计学

(1)定义

推断统计学是利用样本数据信息对总体特征做出推断的一系列方法。

(2)组成

  • 估计
  1. 点估计(point estimation):使用样本数量计算一个单一值来估计总体参数;
  2. 区间估计(interval extimation):提供一个区间范围来估计总体参数,并给出一个置信水平;
  • 假设检验
  1. T检验(t-test):用于比较两个样本均值;
  2. Z检验(z-test):用于大样本或已知总体标准差时的均值比较;
  3. 卡方检验(chi-square test):用于分类数据的独立性检验;
  4. F检验(F-test):用于比较两个方差的检验;

4、描述统计学和推断统计学的区别

推动统计学通过描述统计学从样本数据中获取信息,再利用该信息对总体做出推断。

二、统计学基本概念

1、总体

把想要描述的数据集或刻画我们感兴趣的现象的数据集称为总体;

2、样本

取自总体的数据子集称为样本;

3、参数

(1)描述总体数据特征的数值。在统计学中,总体通常指的是所有观测对象的集合。因为在实际应用中,往往难以获得所有观测对象的数据,所以参数多数情况下是一个理论值,不容易直接观察到。

(2)参数的组成

  1. 总体均值:用于描述总体所有数据点的平均值;
  2. 总体方差和标准差:用于描述数据分布的离散程度;
  3. 总体比例:用于描述某一分类变量中某一类的比例;
  4. 总体偏度:用于描述数据分布的不对称性;
  5. 总体峰度:用于描述数据分布的尖锐或陡峭程度;

4、统计量

(1)基于样本数据计算得出的数值,用于对总体参数进行估计;

(2)统计量的组成

  1. 样本均值:用于描述样本中所有数据点的平均值;
  2. 样本方差:用于描述样本中的数据点与样本平均值的差异;
  3. 样本标准差:样本方差的平方根;
  4. 样本中位数:将样本数据排序后位于中间位置的数值;
  5. 样本比例:用于描述样本中某一特定属性的比例;
  6. 样本偏度:用于描述样本数据分布的不对称性;
  7. 样本峰度:用于描述样本数据分布的尖锐程度或陡峭程度;

5、参数和统计量如何选择

(1)参数

  1. 特点:参数是固定的,因为它描述的是整个总体;
  2. 应用场景:对总体的所有成员都有信息时,我们使用参数来描述总体的特性;

(2)统计量

  1. 特点:统计量是随机的,因为它们是基于样本计算的,而样本是从总体中随机抽取的。不同的样本可能会导致不同的统计量;
  2. 应用场景:当我们只能收集总体的一个子集(样本)的数据时,我们使用统计量来对总体参数进行估计;

(3)使用原则

1.有整个总体的参数时,计算参数;

2.只能获得总体的一个样本数据时,计算统计量,并用它来估计总体参数;

3.总计参数通常时未知的,而统计量是已知的;

三、数据的类别、来源和质量

1.数据类别

(1)定类数据:用于描述类别或名称的数据,其各个类别之间没有固定的顺序,定类数据可以进行计数,但不能进行算术运算;比如:性别(男/女);

(2)定序数据:既有类别也有顺序的数据,但各个类别之间的间隔不一定相等,可进行计数、排序,但不能进行加减乘除运算;如:小学、中学、高中、大学;

(3)定距数据:有固定间距无真正零点的数据,不能乘除运算;

(4)定比数据:有固定间距且有真正零点的数据;

2.数据来源

(1)原始数据:直接从数据源收集的数据,未经过任何处理;

(2)实验数据

(3)观察数据

(4)调查数据

(5)二手数据:已经被其他个人或组织收集、处理过的数据

(6)公共数据库

(7)学术研究库

(8)商业数据

(9)社交媒体数据

(10)政府报告

3.数据质量

(1)数据质量可以从准确性、完整性、一致性、可卡平行和及时性来判别;

(2)排查并处理数据质量的方法

1)数据清理:缺失值处理、异常值处理、重复值处理等;

2)数据验证:范围检查、格式检查、数据一致性检查、文本数据语义验证等;

3)数据转换:单位转换、数据编码;

4)数据审核:完整性检查、一致性检查、精确性检查;


👏觉得文章对自己有用的宝子可以收藏文章并给小编点个赞!

👏想了解更多统计学、数据分析、数据开发、机器学习算法、数据治理、数据资产管理和深度学习等有关知识的宝子们,可以关注小编,希望以后我们一起成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值