匿名数据集上分类器性能的研究与分析
1. 研究背景与问题提出
在数据需要公开发布时,数据匿名化成为保护个人隐私的重要研究方向。常见的匿名化技术包括 k - 匿名、ℓ - 多样性和 t - 接近性。本研究旨在探讨不同分类算法在匿名数据集上的性能变化,以及数据集属性和匿名化参数对分类器性能的影响。具体提出了以下四个研究问题:
- RQ1:不同分类算法在匿名数据集上训练时,其性能如何变化?
- RQ2:哪些分类器受匿名化技术的影响更大?
- RQ3:哪些数据集属性会影响分类器在匿名数据集上的性能?
- RQ4:匿名化参数的变化如何影响分类器的性能?
2. 实验设置
- 分类算法 :选择了八种知名的分类算法,包括 DT(决策树)、NB(朴素贝叶斯)、kNN(k 近邻)、SVM(支持向量机)、RF(随机森林)、LR(逻辑回归)、AB(Adaboost)和 BG(Bagging)。
- 数据集 :使用了十个基准数据集,涵盖了不同的大小、属性数量和类别标签数量。
- 匿名化技术 :采用了 k - 匿名、ℓ - 多样性和 t - 接近性三种匿名化技术。
3. 实验结果
3.1 RQ1:不同分类算法在匿名数据集上的性能变化
分类算法的性能比率(基于十个数据集的汇总结果)如表 1 所示。可以观察到,AB 分类器在所有性能指标和匿名化技术下都显示出最高的比率。当 AB 在 3 - 匿名和 2 - 多样数据集上训练时,
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



