一、数据统计分析方法
1.统计学
是一门依托概率论对各种数据进行收集、分类、概括、整理、分类以及解释的应用性学科,根据使用目的的方法,统计学大致可分为两个分支:描述统计学和推断统计学。
2.描述统计学
(1)定义
描述统计学主要用于总结和描述数据的基本特征,是以便利化和信息化的方式对数据进行整理、汇总、显示的一种方法。描述统计学的一种形式是图表法,用可视化的方式让读者较为容易地获取有用的信息。
(2)组成
-
集中趋势测量
- 均值(mean):数据的算数平均数,反映数据的中心位置;
- 中位数(media):将数据排序后位于中间的值,反映数据的中间位置;
- 众数(mode):数据中出现频率最高的值;
-
离散程度测量
- 方差(variance):数据与均值的平方差的平均值;
- 标准差(standard deviation):方差的平方根,表示数据的离散程度;
- 范围(range):数据集中最大值与最小值的差;
-
分布形状测量
- 偏度(skewness):衡量数据分布的对称性;
- 峰度(kurtosis):衡量数据分布的陡峭程度;
3、推断统计学
(1)定义
推断统计学是利用样本数据信息对总体特征做出推断的一系列方法。
(2)组成
-
估计
- 点估计(point estimation):使用样本数量计算一个单一值来估计总体参数;
- 区间估计(interval extimation):提供一个区间范围来估计总体参数,并给出一个置信水平;
-
假设检验
- T检验(t-test):用于比较两个样本均值;
- Z检验(z-test):用于大样本或已知总体标准差时的均值比较;
- 卡方检验(chi-square test):用于分类数据的独立性检验;
- F检验(F-test):用于比较两个方差的检验;
4、描述统计学和推断统计学的区别
推动统计学通过描述统计学从样本数据中获取信息,再利用该信息对总体做出推断。
二、统计学基本概念
1、总体
把想要描述的数据集或刻画我们感兴趣的现象的数据集称为总体;
2、样本
取自总体的数据子集称为样本;
3、参数
(1)描述总体数据特征的数值。在统计学中,总体通常指的是所有观测对象的集合。因为在实际应用中,往往难以获得所有观测对象的数据,所以参数多数情况下是一个理论值,不容易直接观察到。
(2)参数的组成
- 总体均值:用于描述总体所有数据点的平均值;
- 总体方差和标准差:用于描述数据分布的离散程度;
- 总体比例:用于描述某一分类变量中某一类的比例;
- 总体偏度:用于描述数据分布的不对称性;
- 总体峰度:用于描述数据分布的尖锐或陡峭程度;
4、统计量
(1)基于样本数据计算得出的数值,用于对总体参数进行估计;
(2)统计量的组成
- 样本均值:用于描述样本中所有数据点的平均值;
- 样本方差:用于描述样本中的数据点与样本平均值的差异;
- 样本标准差:样本方差的平方根;
- 样本中位数:将样本数据排序后位于中间位置的数值;
- 样本比例:用于描述样本中某一特定属性的比例;
- 样本偏度:用于描述样本数据分布的不对称性;
- 样本峰度:用于描述样本数据分布的尖锐程度或陡峭程度;
5、参数和统计量如何选择
(1)参数
- 特点:参数是固定的,因为它描述的是整个总体;
- 应用场景:对总体的所有成员都有信息时,我们使用参数来描述总体的特性;
(2)统计量
- 特点:统计量是随机的,因为它们是基于样本计算的,而样本是从总体中随机抽取的。不同的样本可能会导致不同的统计量;
- 应用场景:当我们只能收集总体的一个子集(样本)的数据时,我们使用统计量来对总体参数进行估计;
(3)使用原则
1.有整个总体的参数时,计算参数;
2.只能获得总体的一个样本数据时,计算统计量,并用它来估计总体参数;
3.总计参数通常时未知的,而统计量是已知的;
三、数据的类别、来源和质量
1.数据类别
(1)定类数据:用于描述类别或名称的数据,其各个类别之间没有固定的顺序,定类数据可以进行计数,但不能进行算术运算;比如:性别(男/女);
(2)定序数据:既有类别也有顺序的数据,但各个类别之间的间隔不一定相等,可进行计数、排序,但不能进行加减乘除运算;如:小学、中学、高中、大学;
(3)定距数据:有固定间距无真正零点的数据,不能乘除运算;
(4)定比数据:有固定间距且有真正零点的数据;
2.数据来源
(1)原始数据:直接从数据源收集的数据,未经过任何处理;
(2)实验数据
(3)观察数据
(4)调查数据
(5)二手数据:已经被其他个人或组织收集、处理过的数据
(6)公共数据库
(7)学术研究库
(8)商业数据
(9)社交媒体数据
(10)政府报告
3.数据质量
(1)数据质量可以从准确性、完整性、一致性、可卡平行和及时性来判别;
(2)排查并处理数据质量的方法
1)数据清理:缺失值处理、异常值处理、重复值处理等;
2)数据验证:范围检查、格式检查、数据一致性检查、文本数据语义验证等;
3)数据转换:单位转换、数据编码;
4)数据审核:完整性检查、一致性检查、精确性检查;
👏觉得文章对自己有用的宝子可以收藏文章并给小编点个赞!
👏想了解更多统计学、数据分析、数据开发、机器学习算法、数据治理、数据资产管理和深度学习等有关知识的宝子们,可以关注小编,希望以后我们一起成长!