对数据集进行k匿名(k-Anonymity)处理(python)——以adult数据集为例
k匿名需要满足的条件就是,对于准标识符的任意组合,搜索出来的结果都需要至少有k条。Adult数据集(即“人口普查收入”数据集),由美国人口普查数据集库 抽取而来,其中共包含48842条记录,年收入大于50k美元的占比23.93%,年收入小于50k美元的占比76.07%,并且已经划分为训练数据32561条和测试数据16281条。 该数据集类变量为年收入是否超过50k美元,属性变量包括年龄、工种、学历、职业等 14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,
原创
2022-10-13 22:54:10 ·
8939 阅读 ·
7 评论