【有关数据分析(一)】【数据分析最常用的18个概念】

本文探讨了数据分析中数值型(区间型、分类型、序数型)和分类型数据的特性,涉及缺失值处理、统计指标(均值、最大值、方差、偏斜度、峰态)、分类型数据的类别分析,以及关键统计概念如众数和四分位数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、 写在前面

大多数情况下,数据分析的过程必须包括数据探索的过程。
数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。

二、 数值类型

在进行数据分析时,往往需要明确每个字段的数据类型。数据类型代表了数据的业务含义。

2.1 区间型数据

数值型数据的取值都是数值类型,其大小代表了对象的状态。

2.2 分类型数据

分类型数据的每一个取值都代表了一个类型

2.3 序数型数据

序数型的数据含义就是每个取值是有大小之分

三、 连续型数据

连续型数据的探索,主要关注通过统计指标来反映其分布和特点

3.1 缺失值

取值为空的值即为缺失值。缺失值比例是确定该字段是否可用的重要指标。一般情况下,如果缺失率超过50%,则字段就完全不可用

NULL与0
0是有效值,null是缺失值

3.2 均值

均值就是平均值,其大小放映了整体的水平。

3.3 最大值和最小值

每个数据集中的最大数和最小数

3.4 方差

方差反映各个取值距平均值的离散程度。方差取值越大,说明离散程度越大。

在这里插入图片描述

3.5 标准差

标差是方差的开方,含义与方差类似

在这里插入图片描述

3.6 中位数

中位数是将排序后的数据集分为两个数据集,这两个数据集分别是取值高的数据集和取值低的数据集,偶数集的中位数是两个值的平均值

3.7 众数

众数是数据集中出现频率最高的数据。众数最常用的场景是分类型数据的统计,其反映了数值型数据的“明显集中趋势点的数值”

3.8 四分位数

在这里插入图片描述

Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

3.9 四分位距

四分位距通过第三四分位数和第一四分位数的差值来计算,即IQR=Q3-Q1。IQR=61-34=27。

四分位距是进行离群值判别的一个重要统计指标。一般情况下,极端值都在Q1-1.5×IQR之下,或者Q3 + 1.5×IQR之上。

3.10 偏斜度

偏斜度是关于表现数据分布的对称性的指标。如果其值是0,则代表一个对称性的分布,值是正值,则代表分布的峰值偏左,值是负值,则代表分布的峰值偏右。
在这里插入图片描述

还可以通过中位数和均值的差异来判断分布的偏斜情况:
中位数<均值:偏左分布
中位数、均值相差无几:对称分布
中位数>均值:偏右分布

3.11 峰态

标准正态分布的峰态的值是3,很多数据分析工具中对峰态值减去3,使得:0代表是正态分布;正值代表数据分布有个尖尖的峰值,高于正态分布的峰值;负值代表数据有个平缓的峰值,且低于正态分布的峰值。

峰态指标的主要作用是体现数值分布的尾巴厚度,尖峰对应着厚尾。尖峰厚尾在峰值附近取值较集中,但在非峰值附近取值较分散。

四、 分类型数据

主要从分类的分布等方面进行考察

4.1 缺失值

缺失值是重要的指标,无论是连续型数据还是分类型数据。过多的缺失值,会使得指标失去意义

4.2 类别个数

依据分类型数据中类别的个数,可以对指标是否可用有一个大致的判断。例如,从业务角度看,某个指标应当有6个类别,但实际样本只出现5个类别,则需要重新考虑样本的质量了。某个变量只有一个类别时,对数据分析是完全不可用的

4.3 类别中个体数量

在多数情况下,如果某些类别中个体数量太少,只有1%的比例,可以认为给类别是个离群值。

4.4 众数

数据集中出现频率最高的数据

下一篇:【有关数据分析(二)】【三大分析方法】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值