30、匿名数据集上分类器性能的研究与分析

咖啡JSON

于 2025-08-14 15:22:09 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

分类专栏：数据安全与隐私前沿探析文章标签：匿名数据集 k-匿名 ℓ-多样性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/i1j2k/article/details/151014628

数据安全与隐私前沿探析专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

匿名数据集上分类器性能的研究与分析

1. 研究背景与问题提出

在数据需要公开发布时，数据匿名化成为保护个人隐私的重要研究方向。常见的匿名化技术包括 k - 匿名、ℓ - 多样性和 t - 接近性。本研究旨在探讨不同分类算法在匿名数据集上的性能变化，以及数据集属性和匿名化参数对分类器性能的影响。具体提出了以下四个研究问题：
- RQ1：不同分类算法在匿名数据集上训练时，其性能如何变化？
- RQ2：哪些分类器受匿名化技术的影响更大？
- RQ3：哪些数据集属性会影响分类器在匿名数据集上的性能？
- RQ4：匿名化参数的变化如何影响分类器的性能？

2. 实验设置

分类算法 ：选择了八种知名的分类算法，包括 DT（决策树）、NB（朴素贝叶斯）、kNN（k 近邻）、SVM（支持向量机）、RF（随机森林）、LR（逻辑回归）、AB（Adaboost）和 BG（Bagging）。
数据集 ：使用了十个基准数据集，涵盖了不同的大小、属性数量和类别标签数量。
匿名化技术 ：采用了 k - 匿名、ℓ - 多样性和 t - 接近性三种匿名化技术。

3. 实验结果

3.1 RQ1：不同分类算法在匿名数据集上的性能变化

分类算法的性能比率（基于十个数据集的汇总结果）如表 1 所示。可以观察到，AB 分类器在所有性能指标和匿名化技术下都显示出最高的比率。当 AB 在 3 - 匿名和 2 - 多样数据集上训练时，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。