漫谈数据挖掘之认识数据

前言

前一篇文章我们从总体上介绍了数据挖掘,也见识了数据挖掘的美丽,然而作为一个数据小白,现在距离数据挖掘的距离还很遥远,我们还是要稳扎稳打。如果说上一篇文章我们是仰望星空,那么从这篇文章开始我们就要低头前行了。今天我们主要就是认识数据,虽然处在这样一个数据爆炸的时代,但是我们真的了解数据吗?我们和数据之间好像隔着一层纱,我们可以清楚的感受它的存在,却看不清它的模样,接下来就让我们揭下这块面纱。

数据的属性

属性就是数据的一个字段,表示数据对象的一个特征,如性别,年龄。有过面向对象的编程的经验的人看到这个第一反应可能就是一条数据就是一个对象,数据的属性就是对象的属性,属性的分类如下图所示

标称属性

标称属性就是一些符号或事物的名称,每个值代表某种状态或类别,所以标称属性又被看成是分类的。

例如头发的颜色是描述人的一个属性,其值可以是黑色,黄色,金色等等,这些就是标称属性。

二元属性

二元属性是一种特殊的标称属性,只有两个类别或状态。

二元属性又可以分为对称不对称,对称是指两种状态具有相同的价值且携带相同的权重,如性别。如果状态不是同等重要,例如HIV病毒的化验的阴性和阳性,HIV阳性通常稀有,更值得重视,这种就是不对称。

序数属性

序数属性是一种属性,它们的值之间具有有意义的序。
例如我们去星巴克所说的中杯,大杯和超大杯。

数值属性

数值属性定量的,是可度量的量,可以用整数或实数值来表示。

数值属性可以分为区间标度比率标度,例如我们的温度就是区间标度,今天20度,明天15度。比率标度可以说一个值是另一个值的倍数。

离散属性和连续属性

在机器学习的邻域通常把属性分为连续的和离散的。

数据的度量

上面我们讲到的数据属性的分类,接下来我们看一下数据的度量,这些度量可以描述数据的某些性质。

中心趋势的度量

中心趋势的度量,它度量数据的中部或中心位置,简单来说,就是给定一个属性,它的大部分落在何处。中心趋势的度量包括均值,中位数,众数和中列数。

均值

均值的概念大家从小应该就有,其中还有加权均值,就是每个数都有一个权重,还有截尾均值,就是去除最大值和最小值的影响求均值。

中位数

中位数就是排列过后最中间的一个值,或者两个值的均值。在数据集很大的情况下排序的代价是很大的,有一种估计中位数的算法。就是将数据化划分到不同的区间,并且知道各个区间的频率,在用下面的公式计算,其中L1是含中位数区间的下界,freq1是中位数区间的频率,freq2是低于中位数所有区间的频率之和,width是中位数区间的宽度。

median = L1 + [(N/2 + freq2)/freq1]width

众数 和中列数

众数就不多说了,其中有一个众数叫单峰,多个众数叫多峰,中列数就是数据中最大值和最小值的平均值。

度量数据分布

极差

极差就是数据集合上最大值和最小值的差。

四分位数 和四分位数极差

其实四分位数是三个值,将数据集排列,第25个百分数就是第一个四分位数Q1,第50个百分数就是第二个四分位数Q2,第75个百分数就是第三个四分位数Q3。

例如有12个数据排列过后,第3,6,9个数据就分别是这个数据集合的Q1,Q2,Q3。

四分位数极差就是Q3 - Q1,记为IQR,在离群点的检测中,规则通常是第三个四分位数之上,或第一个四分位数之下 至少1.5 倍IQR处的值。盒图是流行的分布展示,
结构如下,用四分位数很好的展示了数据的散布。

方差和标准差

方差和标准差越大说明数据散布的范围就越广泛,反之数据就越集中。

最后

点赞就是最大的支持,更多文章和资料可以关注微信公众号QStack。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值