提高软件缺陷预测的准确性:数据集和方法论
1 引言
软件缺陷预测是软件工程领域的重要任务之一,旨在提前发现软件中的潜在问题,从而减少后期修复的成本和风险。然而,由于数据集的类别不平衡问题,传统机器学习模型在处理少数类(有缺陷的模块)时往往表现不佳。本文探讨了如何通过一系列数据处理、特征选择和机器学习算法来提高软件缺陷预测的准确性,特别是在类别不平衡的数据集上。
2 数据集描述
为了验证模型的有效性,我们使用了来自PROMISE库的五个软件缺陷预测数据集,分别是CM1、JM1、KC1、KC2和PC1。这些数据集的特点是类别不平衡,即少数类(有缺陷的模块)实例较少,而多数类(无缺陷的模块)实例较多。表1展示了这些数据集的基本信息。
| 数据集 | #属性 | #行 | 缺陷百分比 (%) | 非缺陷百分比 (%) |
|---|---|---|---|---|
| CM1 | 22 | 498 | 9.83 | 90.16 |
| JM1 | 22 | 10,885 | 19.34 | 80.65 |
| PC1 | 22 | 1109 |
超级会员免费看
订阅专栏 解锁全文
793

被折叠的 条评论
为什么被折叠?



