29、并非免费午餐,但价格实惠:匿名数据集上的分类器性能

匿名数据集上分类器性能的实证研究

并非免费午餐,但价格实惠:匿名数据集上的分类器性能

1. 引言

在当今的数据驱动时代,数据分类算法(分类器)在众多实际应用中得到了广泛使用,如人脸识别、语音识别、文本分析、欺诈和异常检测、推荐系统、天气预报以及医学图像分析等。然而,在许多现实场景中,训练数据由不同的实体生成和管理,这些实体往往不愿意将数据共享给分析者,因为数据可能包含隐私敏感信息,其披露可能引发隐私问题。

为了解决这个问题,研究人员探索了多种方法,主要可分为两类:一类是基于加密的方法,通过安全计算分类器模型,但这类方法扩展性不佳,且通常仅针对特定的分类算法设计;另一类是数据匿名化技术,在发布数据集之前,将数据中的值替换为更通用的表示形式。本文主要聚焦于数据匿名化技术在数据分类中的应用。

1.1 问题陈述

数据提供者希望将数据集 T 发布给数据分析者,用于构建分类器模型。数据提供者希望通过匿名化方法保护数据集,防止个人与敏感信息关联。例如,健康中心希望与医学研究中心共享患者记录,但为了保护患者隐私,只能共享匿名化后的数据集。

数据分析者获得匿名化数据后,希望训练分类器,但不清楚在共享的匿名化数据上,哪种分类器的性能更优。这一知识将有助于分析者根据所采用的匿名化技术、数据集属性和期望的性能指标,决定训练哪种分类器。

1.2 研究贡献

为了解决上述问题,本文通过回答以下研究问题,对匿名数据集上的分类器性能进行了研究:
- RQ1 :不同分类算法在匿名数据集上训练时,性能会发生怎样的变化?
- RQ2 :哪些分类器受匿名化技术的影响更大?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值