数据挖掘与隐私:全面概述
1. 引言
数据挖掘已成为分析信息的强大工具,但在一些有争议的项目中使用,使其与侵犯隐私和个人画像联系在一起。这是不幸的,原因如下:
- 数据挖掘是一种技术,而非特定应用,其重要性与几乎所有主要科学和商业企业中不断增长的数据量直接相关。随着数据量和复杂性的增加,如果我们压缩和分析数据的能力无法跟上增长速度,数据反而会阻碍我们对潜在现象的理解。
- 限制数据挖掘研究对解决隐私问题作用不大。限制公共资金用于数据挖掘研究,可能会使研究人员依赖私人资金,从而减少对隐私的关注,以及公众可获取的数据挖掘技术信息。
- 限制数据挖掘研究,会限制我们在几乎所有人类活动领域(包括医学、科学和商业)理解重要数据的能力。
关于是否应开发更强大的数据挖掘技术的争议,不仅破坏了一个重要且有前景的研究方向,还掩盖了一个严峻的现实:即使不进行进一步的研究和开发,当前技术如果在数据收集和分析过程中缺乏适当控制,也可能侵犯隐私。因此,持续发展数据挖掘技术是必要的,同时政策制定者、隐私专家以及私营和公共部门的数据挖掘研究人员应共同努力,制定法律框架和支持技术,在利用数据的同时确保所需的隐私和安全水平。
2. 什么是数据挖掘?
数据挖掘是对一个或多个大型数据集进行分析,以发现有趣且有用的关系或趋势。它与统计学的探索性数据分析子领域以及人工智能的机器学习子领域相关。与这些领域相比,数据挖掘的显著特点是数据量非常大。如果一个算法的运行时间与数据集大小成(线性)比例增长,同时保持可用系统资源(如主内存量和 CPU 处理速度)不变,则该算法具有可扩展性。为了从大型数据集中发现模式,必须对旧算法进行调整或开发新算法以确保可扩展性。