山东大学大数据安全复习提纲

目录

一、大数据安全概念及目标

二、传统访问控制技术和基于密码的访问控制技术。​​​​​​​

三、BLP 和 BIBA 访问控制模型。

四、角色挖掘的算法,聚合式角色挖掘、分裂式数据挖掘。

五、对称密码,非对称密码,hash 算法的原理及作用

六、AES 算法不可约多项式的值,加法和乘法的定义及计算。 ​编辑​编辑

七、RSA 算法描述

八、密文索引的基本思想

九、身份认证技术及实现

十、高级密码技术的零知识证明及应用。

十一、隐私保护的一般方法,如何实现大数据的隐私保护。

一、大数据安全概念及目标

  1. 大数据又称为海量数据,是指所涉及的数据量规模巨大到无法通过人工或者计算机,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。
  2. 大数据普遍存在巨大的数据安全需求,在大数据场景下带来各项新技术挑战
  3. 目标
    • 在满足可用性的前提下实现大数据机密性与完整性
    • 实现大数据的安全共享
    • 实现大数据真实性验证与可信溯源
  4. 大数据生命安全周期
    • 大数据的生命周期包括数据产生、采集、传输、存储、使用、分享、销毁等诸多环节
    • 安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用

大数据安全与隐私保护的区别

  1. 大数据安全需求更为广泛, 关注的目标不仅包括数据机密性, 还包括数据完整性、 真实性、 抗抵赖性/不可否认性, 以及平台安全、 数据权属判定等。 而隐私保护需求一般仅聚焦于匿名性。
  2. 虽然隐私保护中的数据匿名需求与安全需求之一的机密性需求看上去比较类似, 但后者显然严格得多, 要求非授权用户完全不可访问。
  3. 在大数据安全问题下, 一般来说数据对象是有明确定义。 而在涉及隐私保护需求时, 所指的用户“隐私” 则较为笼统, 可能具有多种数据形态存在。

二、传统访问控制技术和基于密码的访问控制技术。

访问控制(Access Control): 确保数据等资产只能经过授权的用户才能访问、使用和修改。

访问控制策略(Policies): 是对系统中用户访问资源行为的安全约束需求的具体描述。

访问控制模型(Model): 是对访问控制策略的抽象、 简化和规范。

早期的访问控制技术都是建立在可信引用监控机基础上的, 1972年由Anderson提出, 它能够对系统中的主体和客体之间的授权访问关系进行监控。

一般来说, 这类访问控制技术都涉及如下的概念:

·主体: 能够发起对资源的访问请求的主动实体,通常为系统的用户或进程。

·客体: 能够被操作的实体,通常是各类系统和数据资源。

·操作: 主体对客体的读、写等动作行为。

·访问权限: 客体及对其的操作形成的二元组<操作,客体>。

·访问控制策略: 对系统中主体访问客体的约束需求描述。

·访问(引用)授权: 访问控制系统按照访问控制策略进行访问权限的赋予。

·引用监控机(Reference Monitor, RM) :指系统中监控主体和客体之间授权访问关系的部件。

·引用验证机制(Reference Validation Mechanism, RVM): 是RM的软硬件实现。引用验证机制RVM是真实系统中访问控制能够被可信实施的基础。它必须满足如下三个属性:

(1) 具有自我保护能力;

(2) 总是处于活跃状态;

(3) 必须设计得足够小,以便于分析和测试。 

(1)传统访问控制技术

  • 自主访问控制模型

客体的属主决定主体对客体的访问权限。自主访问控制模型可以被表述为(S,O,A)三元组。其中, Subject表示主体集合, Oblect表示客体集合。Access matrix表示访问矩阵, A(si,oj)则表示主体si能够对客体oj执行的操作权限。

实现方式:

  1. 能力表(Capabilities List,CL):基于主体的自主访问控制实现,该表记录了每一个主体与一个权限集合的对应关系。权限集合中每个权限被表示为一个客体以及其上允许的操作集合的二元组。
  2. 访问控制列表(Access Control List,ACL):基于客体的自主访问控制实现,该表记录了每一个客体与一个权限集合的对应关系。权限集合中的每个权限被表示为一个主体以及其能够进行的操作集合的二元组。

特点:

  1. 优点:在自主访问控制下,用户可以按自己的意愿,有选择地与其他用户共享他的文件
  2. 缺点:在大数据环境下, 主体和客体数量巨大, 无论哪种实现方式, 自主访问控制模型都将面临权限管理复杂度爆炸式增长的问题。 因此,直接采用自主访问控制模型是非常困难的。
  • 强制访问控制模型

其访问控制策略由安全管理员统一管理。安全管理员为系统中每个主客体分配安全标记,然后依据主客体安全标记之间的支配关系来进行访问控制。由于安全标记之间的支配关系是满足偏序性质的,可以形成格结构,如下图所示。 因此,强制访问控制模型又可称为基于格的访问控制模型。

最为经典的是BLP模型(机密性)和Biba模型(完整性)。

  1. BLP 用于保护系统的机密性 核心规则是“不上读、不下写”,即低级 别不能读取高级别的数据,高级别不能修改低级别的数据,保证数 据只能从低级别往高级别流动。
  2. BIBA 关注完整性 用于防止用户或应用程序等主体未授权地修改重要的数据或程序等客体 可以看作是BLP模型的对偶。=> 不上写,不下读

不足

随着主客体规模的急剧增长, 安全标记和完整性标记的定义和管理将变得非常繁琐;

来自多个应用的用户主体和数据客体也将使得安全标记和完整性标记难以统一。

  • 基于角色的访问控制

RBAC的四种模型:

  1. RBAC0模型(Core RBAC),定义了用户、角色、会话和访问权限等要素。
  2. RBAC1(Hierarchal RBAC)在RBAC0的基础上引入了角色继承的概念。
  3. RBAC2(Constraint RBAC)增加了角色之间的约束条件,例如互斥角色、最小权限等。
  4. RBAC3(Combines RBAC)是RBAC1和RBAC2的综合,探讨了角色继承和约束之间的关系。

·用户是访问控制的主体, 可以发起访问操作请求。

·对象是访问控制的客体, 指系统中受访问控制机制保护的资源。

·操作是指对象上能够被执行的一组访问操作。

·权限是指对象及其上指定的一组操作。

·角色是权限分配的载体, 是一组有意义的权限集合。

·会话用于维护用户和角色之间的动态映射关系。

  • 基于属性的访问控制

通过安全属性来定义授权,并实施访问控制。 由于安全属性可以由不同的属性权威分别定义和维护, 所以具备较高的动态性和分散性, 能够较好地适应开放式的环境。 具体地, 它包括如下几个重要概念:

  1. 实体: 系统中存在的主体、客体,以及权限和环境。
  2. 环境: 指访问控制发生时的系统环境。
  3. 属性: 用于描述上述实体的安全相关信息。它通常由属性名和属性值构成,又可分为:主体属性 客体属性 权限属性 环境属性

访问请求处理流程

·AA为属性权威: 负责实体属性的创建和管理,并提供属性的查询。

·PAP为策略管理点: 负责访问控制策略的创建和管理,并提供策略的查询。

·PEP为策略执行点: 负责处理原始访问请求,查询AA中的属性信息生成基于属性的访问请求,并将其发送给PDP进行判定, 然后根据PDP的判定结果实施访问控制。

·PDP为策略判定点: 负责根据PAP中的策略集对基于属性的访问请求进行判定,并将判定结果返回PEP。

特点

  1. 适合大数据的开放式数据共享环境。
  2. 属性的管理和标记对于安全管理员来说仍然是劳动密集型工作,且需要一定的专业领域知识。
  3. 在大数据场景下,数据规模和应用复杂度使得这一问题更加严重。

(2)基于密码的访问控制技术

①基于密钥管理的访问控制技术

基于密钥管理的访问控制技术,是通过严格的密钥管理来确保授权用户才能有解密数据所需要的密钥,来实现访问控制。

基于单发送者广播加密的访问控制

基于对称加密实现

  1. 数据所有者: 拥有数据和完整的用户密钥树,负责根据数据分享的目标对象,有选择地从用户密钥树中选取加密密钥对数据进行加密,并将加密结果广播式发送给所有用户。
  2. 普通用户: 拥有用户密钥树中的与自己相关的部分密钥,负责接收数据密文并利用自己持有的密钥解密数据。

例如

选择红色节点处的密钥集{k0, k10, k110}进行数据加密,则未授权的普通用户就是U7,他将无法解密数据。

基于公钥广播加密的访问控制技术

基于公钥加密(非对称加密)实现

·公钥服务器: 负责维护一个密钥集合。即将系统中的所有用户划分为子集,每个子集代表了可能的数据接收者集合。为每个子集产生公私钥对,并将私钥安全分发给其包含的用户。

·数据所有者: 负责将数据加密,并采用基于公钥广播加密技术对加密密钥进行分发,以实现对授权接收者的限定。

·数据服务者: 负责加密数据的存储,并向用户提供对数据的操作。

·用户: 是数据的访问者。只有被数据所有者授权的用户才能获得数据的加密密钥,并进一步解密出数据。

由于采用公钥加密方式,所以系统的所有用户都可以是数据所有者,并向其他用户分享数据,消除了单发送者广播加密方案对发送者范围的限制。

②基于属性加密的访问控制技术

  1. 在基于密钥管理的访问控制中,系统通过控制用户持有的密钥集合来区分用户,进而实施授权和访问控制。
  2. 基于属性加密的访问控制是通过更加灵活的属性管理来实现访问控制,即将属性集合作为公钥进行数据加密,要求只有满足该属性集合的用户才能解密数据。

·可信权威:维护了每个用户的属性与密钥的对应关系, 为用户发布属性密钥。

·数据所有者:具有数据的所有权,负责访问策略(访问结构T)的定义,并产生与策略绑定的密文数据,然后发送给服务提供者。

·用户:是数据的访问者。若该用户具有满足密文数据所绑定策略中要求的属性,即持有恰当属性密钥,那么就可以解密出数据明文。

·服务提供者:负责提供数据的外包存储。

三、BLP 和 BIBA 访问控制模型。

  • BLP

BLP模型被用于保护系统的机密性,防止信息的未授权泄漏。该模型的核心规则是“不上读、不下写”,即低级别不能读取高级别的数据,高级别不能修改低级别的数据,保证数据只能从低级别往高级别流动。

  • 安全级别Level:公开( UC) 、 秘密( S) 、 机密( C) 、 绝密(TS) 。 它们之间的关系为 UC ≤ S ≤ C ≤ TS。
  • 范畴Category: 为一个类别信息构成的集合, 例如{ 中国, 军事, 科技} 。 具有该范畴的主体能够访问那些以该范畴子集为范畴的客体。
  • 安全标记Label: 由安全级别和范畴构成的二元组<Level,Category>, 例如<C,{ 中国,科技} >。
  • 支配关系dom: 安全标记A dom B, 当且仅当LevelA ≥ LevelB,CategoryA ⊇ CategoryB。

BLP模型中在为系统中每个保护范围内的主客体都分配了安全标记后,主体对客体的访问行为应满足如下两条安全属性:

  • 简单安全属性: 主体S可以读客体O, 当且仅当LabelS dom LabelO, 且S对O有自主型读权限。
  • 安全属性: 主体S可以写客体O, 当且仅当LabelO dom LabelS, 且S对O具有自主型写权限。

从信息流角度看, 上述两条读/写操作所应遵循的安全属性阻止了信息从高安全级别流入低安全级别, 且使得信息仅被需要知悉的人所知悉 ,因此, 能够有效地确保数据的机密性。

  • BIBA

Biba模型是第一个关注完整性的访问控制模型,用于防止用户或应用程序等主体未授权地修改重要的数据或程序等客体。该模型可以看作是BLP模型的对偶。

  • 完整性级别Level: 代表了主/客体的可信度。 完整性级别高的主体比完整性级别低的主体在行为上具有更高的可靠性;完整性级别高的客体比完整性级别低的客体所承载的信息更加精确和可靠。
  • 范畴Category: 若范畴CategoryA ⊇ CategoryB, 则A能写入B;否则, A不能写入B。
  • 完整性标记Label: 由完整性级别和范畴构成的二元组<Level,Category>。
  • 支配关系dom: 完整性标记A dom B, 当且仅当LevelA ≥ LevelB, CategoryA ⊇ CategoryB。

基于以下三条安全属性, 信息只能从高完整性级别的主客体流向低完整性级别的主客体,从而有效避免了低完整性级别的主客体对高安全级别主客体的完整性的“污染”。

  • 完整性属性: 主体S能够写入客体O, 当且仅当LabelS dom LabelO。
  • 调用属性: 主体S1能够调用主体S2, 当且仅当LabelS1 dom LabelS2。
  • 简单完整性属性: 主体S能够读取客体O, 当且仅当LabelO dom LabelS。

基于上述三条安全属性,信息只能从高完整性级别的主客体流向低完整性级别的主客体,从而有效避免了低完整性级别的主客体对高安全级别主客体的完整性的“污染”。

之间的关系

  • Biba模型是第一个关注完整性的访问控制模型,用于防止用户或应用程序等主体未授权地修改重要的数据或程序等客体。 该模型可以看作是BLP模型的对偶。
  • Biba模型不关注机密性,没有定义BLP模型的安全级别,而是定义了完整性级别。完整性级别高的主体比完整性级别低的主体在行为上具有更高的可靠性;完整性级别高的客体比完整性级别低的客体所承载的信息更加精确和可靠。
  • Biba模型中信息只能从高完整性级别的主客体流向低完整性级别的主客体,从而有效避免了低完整性级别的主客体对高完整性级别主客体的完整性的“污染”。
  • BLP模型中阻止了信息从高安全级别流入低安全级别, 且使得信息仅被需要知悉的人所知悉。

四、角色挖掘的算法,聚合式角色挖掘、分裂式数据挖掘。

基于层次聚类的角色挖掘

  • 凝聚式角色挖掘

凝聚式角色挖掘方法 将权限看作是聚类的对象,通过不断合并距离近的类簇完成对权限的层次聚类,聚类结果为候选的角色。

权限集合求并 用户集合求交

  • 分裂式角色挖掘

分裂式角色挖掘方法 分类方法,不断将角色集中的角色按类别划分。

权限集合求交 用户集合求并

生成式角色挖掘

将角色挖掘问题映射为文本分析问题,采用两类主题模 型LDA(Latent Dirichlet Allocation)和ATM(Author Topic Model)进行生成式角色挖掘,从权限使用情况的历史数据来获得用户的权限使用模式,进而产生角色,并为它赋予合适的权限,同时根据用户属性数据为用户分配恰当的角色。

文档的生成: 一篇文档包括了多个主题,文档中的每个词都是由其中一个主题产生的。也就是存在两个多项式概率分布θ和φ, θ是一个文档上的主题分布, φ是一个主题上的单词出现的概率分布。

角色挖掘问题被映射为文档生成问题,采用LDA模型就能够挖掘出角色定义。

五、对称密码,非对称密码,hash 算法的原理及作用

密码算法的种类:

(1) 对称密码体制(Symmetric Cryptosystem):

加密密钥和解密密钥相同,或从一个容易推出另一个。又称为秘密密钥密码体制或单钥密码体制。包括:

a) 分组密码算法(block cipher):用于网络通信和文件加密等。

b) 序列密码算法(又称流密码,stream cipher):用于手机、卫星通信等实时性高的场景。

(2) 非对称密钥体制(Asymmetric Cryptosystem):

加密密钥和解密密钥不相同:加密密钥可以公开,称为公钥(publickey);解密密钥必须保密,称为私钥(private key)。又称为公钥密码体制(public-key Cryptosystem)。

(3) 密码杂凑函数(Hash Function)

将任意长度的消息进行运算,得到固定长度的“数字指纹”。

(1)对称密码

替代

置换

DES算法

特点:

·分组加密算法:明文以64位分组,64位明文输入,64位密文输出

·有效密钥长度为56位:密钥通常表示为64位数,但每个第8位用于奇偶校验

·易于实现: DES算法只是使用了标准的算术和逻辑运算,其作用的数最多也只有64位

·56-bit已可在24小时内被暴力破解

DES算法简述:

  1. 输入64位明文数据,进行初始置换:DES算法使用64位密钥Key将64位明文输入块变为64位的密文输出块,并将输出块分为L0、R0两部分,每部分均为32位
  2. 在密钥的控制下,进行完全相同的16轮运算f,运算过程中总数据和密钥结合,函数f由四步运算构成:密钥置换、扩展置换、S-盒替代、P-盒置换
  3. 16轮之后,左右两部分进行交换,再连接到一起,然后再进行逆置换
  4. 输出64位密文

AES算法

加密:明文P与密钥K分组后,对每组:明文组P与密钥组K处理->轮密钥加->10轮加密->密文组

解密:对每组:密文组->轮密钥加->10轮解密->明文组

以128位密钥分组为例:加密共10轮,第1轮到第9轮的轮函数一样,包括4个操作:字节代换、行位移、列混淆和轮密钥加。第十轮迭代不执行列混淆。解密同理。

分组密码算法

分组密码算法的工作模式:

  1. 电子密码本 ECB (electronic codebook mode)
  2. 密码分组链接 CBC (cipher block chaining)
  3. 密码反馈 CFB (cipher feedback)
  4. 输出反馈 OFB (output feedback)
  5. 计数器模式 CTR (Counter)
  6. GCM模式
  7. XTS模式
ECB模式

CBC模式

CTR模式

总结

(2)非对称密码(公钥密码)

解决对称密码的不足:

A. 密钥分配/协商问题:通信双方要用对称密码进行加密通信,需要通过秘密的安全信道协商对称密钥,而这种安全信道可能很难实现

B. 密钥管理问题:在有很多用户的网络中,任何两个用户之间都需要有共享的对称密钥,当网络中的用户n很大时,需要管理的密钥数目非常大,即n(n-1)/2 。

C. 数字签名和身份鉴别功能:当主体A收到主体B的电子文挡(电子数据)时,对称密码无法向第三方证明此电子文档确实来源于B。

功能:

加密:数据机密性

数字签名:真实性、完整性、不可抵赖性

密钥交换:协商对称密钥

身份认证:真实性

  • RSA算法

算法元素

  1. 辗转相除法求模的逆元

  2. 欧拉数



(3)Hash算法

通用模型

  • MD5算法

·第一步: padding

– 补长到512的倍数

– 最后64位为消息长度的低64位

– 一定要补长(1~512),内容为100…0

·第二步:消息块划分

– 把结果分割为512位的块: Y0,Y1,…YL-1

·第三步:循环迭代运算

– 初始化MD buffer, 128位常量(4个字),进入循环迭代,共L次

– 每次:一个输入128位,另一个输入512位,结果输出128位,用于下一轮输入

·第四步:输出结果

– 最后一步的输出即为散列结果128位

  • SM3算法


  • 消息鉴别码

  • HMAC——基于HASH算法的、带密钥的消息鉴别码

公钥密码与对称密码的比较

  • 密钥的分配和管理:

对称密码密钥数量大,密钥的分配和管理困难

公钥密码密钥数量小,密钥的分发十分方便。

  • 数字签名功能:

对称密码不能提供不可否认的数字签名功能,

公钥密码可以提供不可否认的数字签名。

  • 实际使用:

对称密码算法速度快,适合加密大批量数据;

公钥密码算法速度慢,适合完成对称密码算法的密钥分配以及数字签名、身份鉴别等各种密码协议

六、AES 算法不可约多项式的值,加法和乘法的定义及计算。

七、RSA 算法描述

RSA算法既能加密,又可签名

八、密文索引的基本思想

  • 系统模型

密文检索主要涉及数据所有者、数据检索者以及服务器3种角色。其中,数据所有者是敏感数据的拥有者,数据检索者是查询请求的发起者,这二者通常仅具备有限的存储空间和计算能力;服务器为所有者和检索者提供数据存储和数据查询服务,其由云存储服务提供商进行管理和维护,并具有强大的存储能力和计算能力。

  • 系统流程

① 数据所有者首先为数据构造支持检索功能的索引,同时使用传统的加密技术加密全部数据,然后将密文数据和索引共同存储到服务器。

② 需要检索时,数据检索者为检索条件生成相应的陷门,并发送给服务器。

③ 服务器使用索引和陷门进行协议预设的运算,并将满足检索条件的密文数据返回给数据检索者。

④ 数据检索者使用密钥将检索结果解密,得到明文数据。有时服务器返回的密文数据中可能包含不满足检索条件的冗余数据,此时数据检索者还需要对解密后的明文数据进行二次检索,即在本地剔除冗余数据。

(1)基于全文扫描的方案

(2)基于文档-关键词索引的方案

其核心思路是为每篇文档建立单独的索引,且服务器在检索时需要遍历全部索引,因此,这类方案的检索时间复杂度与文档数目成正比。

基于布隆过滤器的密文关键词检索方案 由于Hash函数的计算结果可能存在冲突,布隆过滤器可能会发生误判

位数组即是索引,集合即是密文数据集,有k个hash函数,每一条数据就会映射到k位上。

数据所有者首先对每个数据(设为数据a)hash k次,把对应位记为1.数据检索者想要检索数据a,就根据这些hash函数检查对应位,若全是1就认为a是数据库中的数据。

九、身份认证技术及实现

基本模型

(1)基于口令的身份认证技术

口令的要求:

·足够的长度,并包含各种不同的字符数;

·和ID无关;

·包含特殊的字符;

·大小写;

·不容易被猜测到;

·定期更改其口令;

·使用字典式攻击的工具找出比较脆弱的口令:

  1. 网络管理员使用的工具:口令检验器
  2. 攻击者破获口令使用的工具:口令破译器

(2)远程身份认证技术

(3)双因子认证技术

双因子认证(2FA)是指结合密码以及实物(信用卡、SMS手机、令牌或指纹等生物标志)两种条件对用户进行认证的方法。

在这一验证过程中,需要用户提供两种不同的认证因素来证明自己的身份,从而起到更好地保护用户证书和用户可访问的资源。双因子验证比基于单因子的验证方式提供了一种更高级别的保证。

复杂的身份验证方式

·增加了用户疲劳

·降低了客户满意度

·减低企业服务竞争力

(4)挑战-应答协议

基于挑战/应答(Challenge/Response)方式的身份认证系统就是每次认证时认证服务器端都给客户端发送一个不同的"挑战"字串,客户端程序收到这个"挑战"字串后,做出相应的"应答",以此机制而研制的系统。认证过程为:

  1. 客户向认证服务器发出请求,要求进行身份认证;
  2. 认证服务器从用户数据库中查询用户是否是合法的用户,若不是,则不做进一步处理;
  3. 认证服务器内部产生一个随机数,作为"提问",发送给客户;
  4. 客户将用户口令和随机数合并,使用单向Hash函数(例如MD5算法)生成一个字节串作为应答;
  5. 认证服务器将应答串与自己的计算结果比较,若二者相同,则通过一次认证;否则,认证失败;
  6. 认证服务器通知客户认证成功或失败。

(5)生物识别技术

·指纹识别: 千元机标配,Android6.0开始开放指纹API。使用最为简单方便。

·虹膜识别: 最可靠的生物识别技术,部分高端手机已经适配虹膜摄像头。

·面部识别: 精确度日益提高.

·声纹识别: 成熟易用,微信已经开始启用声纹识别登录。

·其他:静脉识别、掌型识别、眼纹……

(6)FIDO身份认证

十、高级密码技术的零知识证明及应用。

零知识证明:不泄露信息的前提下,证明自己拥有某个秘密。

(1)平方根问题的零知识

(2)离散对数问题的零知识证明

(3)非交互零知识证明

十一、隐私保护的一般方法,如何实现大数据的隐私保护。

(1)k-anonymityk-匿名化)

将属性分为以下三类:

  • Key attributes: 一般是个体的唯一标示,比如说姓名、地址、电话等等,这些内容需要在公开数据的时候删掉。
  • Quasi-identifier: 类似邮编、年龄、生日、性别等不是唯一的,但是能帮助研究人员关联相关数据的标示。
  • Sensitive attributes: 敏感数据,比如说购买偏好、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。

k-anonymity(k-匿名化)的目的是保护公开数据中的个人信息,通过匿名化,使得分析者无法区分个人信息与其他 k-1 条,进而保护用户的敏感信息。

方法:

  • 一种是删除对应的数据列,用星号(*)代替。
  • 另外一种方法是用概括的方法使之无法区分。

攻击方法:

• 未排序匹配攻击 (unsorted matching attack)

当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。

• 补充数据攻击 (complementary release attack) 。

假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息

(2)I-dentifier(I-多样化)

在公开的数据中,对于那些quasi-identifier 相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。

l-diversity 保证了相同类型数据中至少有 l 种内容不同的敏感属性。

• 基于概率的l-diversity (probabilistic l-diversity) 在一个类型中出现频率最高的值的概率不大于 1/l。

• 基于墒的l-diversity (entropy l-diversity) 在一个类型中敏感数据分布的墒至少是 log(l)。

• 递归 (c,l)-diversity (recursive (c, l)-diversity 保证最经常出现的值的出现频率不要太高

(3)差分隐私(differential privacy)

通过比较公开数据和既有的知识推测出个人隐私,就叫做差分攻击。

差分隐私就是用一种方法使得查询 100 个信息和查询其中 99 个的信息得到的结果是相对一致的,那么攻击者就无法通过比较(差分)数据的不同找出第100 个人的信息。

这种方法就是加入随机性,如果查询 100 个记录和 99 个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。

输出结果变换:加入噪声

在差分隐私中,防止隐私泄露的重要因素是在查询结果中加噪音,对于数值的查询结果,一种常见的方法就是对结果进行数值变换。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

社恐的西蓝花

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值