数据仓库与数据挖掘 上机实训

实验目的

1、掌握数据挖掘中数据预处理的方法;
2、了解数据转换的过程和方法;
3、了解描述性数据汇总的计算机实现方法。
1、理解分类的一般过程和基本原理;
2、巩固分类算法的算法思想,能够进行分类操作;
3、学会分类预测问题中的性能评估方法。

实验原理

现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,为提高数据质量进而提高挖掘结果的质量,产生了大量数据预处理技术。数据预处理有许多方法:
(1) 数据清理: 数据清理是完成格式的标准化、对空缺值进行处理、清除重复的数据以及对异常数据进行错误纠正和清除等操作;
(2) 数据集成: 数据集成是将来自不同数据源的数据合并为统一一致的数据存储中, 这种数据存储可以是数据库或数据仓库;数据集成主要包括:包含相同字段属性的纵向追加和具有相关属性叠加的横向合并。
(3) 数据归约: 数据归约是针对原始数据集中地属性和记录, 实现有效的数据采样与对应属性选择, 进一步降低数据规模, 在数据归约过程可以采用聚集、聚类以及将冗余特征值删除等形式, 达到既能最大限度的保持数据的原有特征, 又能够有效的精简数据量的目的。数据归约主要通过数据立方体技术、维消减、数据压缩、数据块消减、离散化和概念层次生成等方法实现。
(4) 数据变换: 数据变换是根据需要将数据压缩到较小的区间中, 也就是对数据进行规格化处理, 将数据压缩到特定的范围之内。
以上几种数据预处理方法, 相互之间不仅关联而且是独立的, 各个预处理方法的实施并没有先后顺序的严格制约, 并且相互贯通, 例如消除数据冗余的过程既可以看做是数据清洗过程的一项工作, 也可以认为是数据归约工作中的一种方法。

特征选择能够从数据集中选取具有代表性的特征子集,删除不相关或冗余特征。因此,在软件缺陷预测中采用特征选择,不仅能够提高预测模型的训练速度,更重要的是能够提高其预测性能。根据特征选择的输出类型不同,可将其分为特征排序和特征子集选择两类。

1、常用的预测模型:决策树、朴素贝叶斯分类器和支持向量机(SVM)等。
2、评价预测结果,常用的性能评价指标:F-Measure、AUC

实验内容:

预处理

实验题目
对数据集D(CM1软件缺陷预测中常用的数据集) 进行如下特征选择处理,使用熟悉的程序设计语言进行编程(要求程序具有通用性):
(本实验中数据集D指CM1数据集,数据细节参见CM1.arff文件)
CM1数据说明:LOC_BLANK、 LOC_BLANK、 BRANCH_COUNT、CALL_PAIRS 、LOC_CODE_AND_COMMENT、LOC_COMMENTS、CONDITION_COUNT 、CYCLOMATIC_COMPLEXITY、CYCLOMATIC_DENSITY、DECISION_COUNT、DECISION_DENSITY 、DESIGN_COMPLEXITY、DESIGN_DENSITY、EDGE_COUNT、ESSENTIAL_COMPLEXITY、ESSENTIAL_DENSITY、LOC_EXECUTABLE、PARAMETER_COUNT、HALSTEAD_CONTENT、HALSTEAD_DIFFICULTY、HALSTEAD_EFFORT、HALSTEAD_ERROR_EST、HALSTEAD_LENGTH、 HALSTEAD_LEVEL、 HALSTEAD_PROG_TIME、 HALSTEAD_VOLUME、 MAINTENANCE_SEVERITY、 MODIFIED_CONDITION_COUNT、 MULTIPLE_CONDITION_COUNT、 NODE_COUNT、 NORMALIZED_CYLOMATIC_COMPLEXITY、 NUM_OPERANDS、 NUM_OPERATORS 、 NUM_UNIQUE_OPERANDS、 NUM_UNIQUE_OPERATORS、 NUMBER_OF_LINES、 PERCENT_COMMENTS 、 LOC_TOTAL 为样本特征;
Defective {Y,N}表示样本的类别,Y表示有缺陷样本,N表示无缺陷样本。

方法说明:
在软件缺陷预测中,一个数据集是由大量样本组成的,每个样本又包括多个特征来描述样本的相关特性。对于一个数据集D={x1,x2,…,xn},该数据集包括n个样本,每个样本含有d个特征,分别表示为F={ f1,f2,…,fd }。此时,每个样本可以看作是一个 d 维向量。因此,数据集 D中任意两个样本xi与xj之间的欧氏距离为:在这里插入图片描述上式将数据集中不同特征的量纲(即单位)看作是相同的,故无法准确度量不同量纲的特征间的距离。因此,需要对数据集进行标准化处理,消除不同特征间的量纲约束,从而准确度量不同特征间的距离。标准化过程如下

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值