12、提高软件缺陷预测的准确性:数据集和方法论

提高软件缺陷预测的准确性:数据集和方法论

1 引言

软件缺陷预测是软件工程领域的重要任务之一,旨在提前发现软件中的潜在问题,从而减少后期修复的成本和风险。然而,由于数据集的类别不平衡问题,传统机器学习模型在处理少数类(有缺陷的模块)时往往表现不佳。本文探讨了如何通过一系列数据处理、特征选择和机器学习算法来提高软件缺陷预测的准确性,特别是在类别不平衡的数据集上。

2 数据集描述

为了验证模型的有效性,我们使用了来自PROMISE库的五个软件缺陷预测数据集,分别是CM1、JM1、KC1、KC2和PC1。这些数据集的特点是类别不平衡,即少数类(有缺陷的模块)实例较少,而多数类(无缺陷的模块)实例较多。表1展示了这些数据集的基本信息。

数据集 #属性 #行 缺陷百分比 (%) 非缺陷百分比 (%)
CM1 22 498 9.83 90.16
JM1 22 10,885 19.34 80.65
PC1 22 1109
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值