30、匿名数据集上分类器性能的研究与分析

匿名数据集上分类器性能的研究与分析

1. 研究背景与问题提出

在数据需要公开发布时,数据匿名化成为保护个人隐私的重要研究方向。常见的匿名化技术包括 k - 匿名、ℓ - 多样性和 t - 接近性。本研究旨在探讨不同分类算法在匿名数据集上的性能变化,以及数据集属性和匿名化参数对分类器性能的影响。具体提出了以下四个研究问题:
- RQ1:不同分类算法在匿名数据集上训练时,其性能如何变化?
- RQ2:哪些分类器受匿名化技术的影响更大?
- RQ3:哪些数据集属性会影响分类器在匿名数据集上的性能?
- RQ4:匿名化参数的变化如何影响分类器的性能?

2. 实验设置
  • 分类算法 :选择了八种知名的分类算法,包括 DT(决策树)、NB(朴素贝叶斯)、kNN(k 近邻)、SVM(支持向量机)、RF(随机森林)、LR(逻辑回归)、AB(Adaboost)和 BG(Bagging)。
  • 数据集 :使用了十个基准数据集,涵盖了不同的大小、属性数量和类别标签数量。
  • 匿名化技术 :采用了 k - 匿名、ℓ - 多样性和 t - 接近性三种匿名化技术。
3. 实验结果
3.1 RQ1:不同分类算法在匿名数据集上的性能变化

分类算法的性能比率(基于十个数据集的汇总结果)如表 1 所示。可以观察到,AB 分类器在所有性能指标和匿名化技术下都显示出最高的比率。当 AB 在 3 - 匿名和 2 - 多样数据集上训练时,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值