数据挖掘与技术第三版部分答案

1.4 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?

可以挖掘什么类型的模式:特征化与区分、频繁模式、分类与回归、聚类、离群点分析。可以航空公司为例,为提高用户体验度,最大限度提高乘客登机时的效率,减少登机所用时间。这就需要进行回归分析,比如以近几个月登机时的数据进行回归分析,来判断某时刻客户登机时的人流量符合哪种分布情况,以预测未来人流量从而提前做出相应改进措施提高用户登机效率。在这种情况下,简单的查询统计是满足不了该航空公司的。

它们不能由数据查询处理或简单的统计分析来实现,因为数据查询处理以及简单的统计分析只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值数据,查询处理主要应用于数据的查询和信息检索方面,无法实现频繁项集发现功能。同样的,简单的统计技术无法完成大规模数据的分析。

1.5 解释区分和分类、特征化和聚类、分类和回归之间的区别和相似之处。

区分和分类:数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较;而分类则是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测。

特征化和聚类:数据特征化是目标类数据的一般特性或特征的汇总,即在进行数据特征化时很清楚特征化的这些数据的特点是什么;而聚类则只是分析数据对象,按照“最大化类内相似度、最小化类间相似度”的原则进行聚类或分组。

分类在第一点时已经说过;回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。

2.2 假设所分析的的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.

1.    该数的均值是多少?中位数是什么? 
该数的均值为29.963,中位数是25。

2.    该数据的众数是什么?讨论数据的模态(即二模、三模等)。 
该数据的众数为25和35,即该数据是一个双峰的分布,即二模。

3.    该数据的中列数是多少? 
该数据的中列数为(70+13)/2=41.5。

4.    你能粗略的找出该数据的第一个四分位数(Q1)和第三个四分位数(Q3)吗? 
第一个四分位数为:⌈27/4⌉=7处,Q1=20,第三个四分位数为:7∗3=21处,Q3=35。

5.    给出该数据的五数概括。 

五数:最小值,第一个四分位数,中位数,第三个四分位数,最大值
根据以上,得到了最小观测值、Q1、Q2、Q3、最大观测值,所以画出其盒图如下:Q1=20,Q3=35 中位数=25

IQR=35-20=15;

1.5IQR=22.5;


最大观测值=

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值