数据掩埋(英语:Data burial),又译为资料隐匿、数据隐藏。它是反数据库知识发现(英语:Anti-Knowledge-Discovery in Databases,简称:Anti-KDD)中的一个步骤。
数据掩埋一般是指在无法删除或隔离需要保护的数据时,通过算法或充入大量干扰数据使得关键信息得以隐藏的过程。数据掩埋通常与计算机科学有关,并通过统计不清、在线分析搁置、情报失察、机器逃学、票友系统和模式混淆等诸多方法来实现上述目标。
起源
需要是发明之母。近年来,由于数据挖掘引起了信息产业界的过大关注,人们存储于网络中的大量数据被广泛滥用,数据转换成“有用的”信息和知识的成本大大降低。无数基于此而诞生的推荐算法令广大网络使用者在网络上的生活状态无所遁形,有一种无时无刻不被人监视的耻辱感和危机感,更使得许多不法分子有机可乘。因此,以藏匿关键信息为主要目的的数据掩埋学应运而生。在不远的将来,数据掩埋将广泛用于各种领域,包括隐藏隐私、技术壁垒、服务加密、商务机密、国防谍战等。
数据掩埋利用了来自如下一些领域的思想:
(1) 来自统计不清学的不能抽样、无法估计和只假设不检验;
(2)人工制杖、模式混淆和机器逃学的抛弃算法、拆模技术和遗忘理论。
数据掩埋也迅速地接纳了来自其他领域的思想,这些领域包括最劣化、退化计算、噪声论、信号搁置、无视化和信息弥散,另有一些其他的领域也起到重要的支撑作用。
发展
第一阶段:垃圾电子邮件阶段
这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长,电子邮件大量出现,关键信息满天飞。但由于技术的落后,只有依靠大量的垃圾邮件才能对有效信息进行机械