第1章 论大数据信息流中安全标准的必要性
克里斯托弗·哈里森、玛卡拉·奎因、雅各布·利文斯顿和卡里姆·O·埃利什
摘要
大数据因其能够提供信息并优化当前的商业、医疗、经济和研究流程而变得越来越普及。尽管大数据的应用已跨越多个行业,但在可以采集哪些数据以及如何使用这些数据方面,仍然缺乏相应的安全标准和法规。由于围绕大数据安全的法律法规缺失,可能已导致多次数据泄露事件的发生。由于大数据信息流中涉及众多参与者,因此需要对每个环节进行深入审查,以确定在各个阶段应实施哪些安全措施,从而防止数据泄露的发生。本文的目的是指出在大数据信息流中建立实用安全标准的必要性。特别是,我们识别出应在大数据信息流的每个阶段应用哪些安全标准,以确保有价值且敏感数据的隐私和数据安全。
关键词 大数据 · 安全标准 · 安全与隐私 · 信息流
1.1 引言
在这个数据驱动的社会中,大数据已成为许多不同行业决策的关键因素。美国国家科学基金会将大数据定义为来自不同数据源(例如互联网交易、传感器数据、电子邮件和视频)的数据集,这些数据集通常具有规模大、多样化和/或分布式的特征[4]。许多拥有这些海量数据集的行业能够以前所未有的方式整合大量结构化和非结构化数据,用于分析、预测和监控趋势。
这些行业广泛应用了大数据。一些行业正在使用大数据分析技术来监控经济活动,例如零售活动或其金融机构的支付监控。另一些行业则利用大数据分析来发现医疗保健或其他科学研究中的新成果。
尽管大数据提供了许多好处,但目前缺乏足够的安全措施来保护所收集的有价值且敏感的信息。在可以收集、分析和出售给第三方的数据方面,现有的法律法规十分有限。因此,有必要制定更严格的数据安全标准,以确保大数据行业处理的敏感和个人数据得到充分保护。本文旨在指出在大数据信息流中建立实用安全标准的必要性,并明确在每个阶段应实施哪些安全标准,以确保数据在整个流程中始终保持安全。
本文其余部分组织如下:我们在第1.2节中调研现有的大数据安全与隐私标准。1.3节回顾了大数据产业。在第1.4节中,我们回顾了大数据泄露事件,并在第1.5节中总结了大数据信息流。我们在第1.6节中提出并讨论安全标准在大数据中的应用。1.7节对全文进行总结。
1.2 相关工作
本节简要概述了与大数据伦理、医疗保健中的大数据安全与隐私以及大数据安全中的挑战相关的现有研究。
1.2.1 大数据伦理
理查兹和金 [6]评估了大数据伦理的现状,并提出了以下四项大数据伦理原则:
- 数据隐私应被视为信息规则
- 共享的私有数据可以保密
- 大数据需要透明度以防止滥用
- 大数据可能损害身份
理查兹和金的研究指出,利用大数据所提供的各种创新可能性是巨大的 [6]。从安全角度来看,我们必须意识到并解决数据保护法律法规的缺失问题,因为等到这些法律法规出台时,技术已经发展到原有立法不再适用的地步。为了充分利用大数据带来的好处,必须有意识地努力建立隐私、保密性和透明度方面的法规,以防止潜在危害的发生。
鲁宾斯坦 [8]讨论了《欧盟数据保护指令》实施的改革举措,以及由于法律法规无法跟上技术进步而未能奏效的原因。这些技术进步使行业参与者能够重新识别数据提供者,从而导致所有数据隐私丧失。为了减少对数据提供者信息的不道德使用,应赋予数据提供者访问其数据的权利,或使其能够利用个人数据服务来安全存储并去标识化其数据 [8]。除非在大数据伦理、法律和法规方面实现观念转变,否则这些问题将持续存在。
1.2.2 医疗保健中的大数据安全与隐私
在此期间,医疗领域的数据收集不断增加,大数据对医疗保健变得至关重要。
帕蒂尔和谢沙迪 [5] 探讨了随着大数据在医疗保健中发挥更大作用而已经出现或将要出现的新兴漏洞。他们还指出,充分利用处理和整合大量数据的能力对于改善患者护理至关重要。由于患者数据具有重要性,作者提出了一些应实施的措施,以帮助防止医疗保健中的数据泄露 [5]:
- 数据治理
- 实时安全分析
- 隐私保护分析
1.2.3 大数据安全:概念、方法与挑战
大数据正在通过发现和创新改变世界。这推动了数据分析软件的新发展,可用于增进对人类和社会过程及互动的理解[3]。这些洞察和突破有助于各行各业通过利用大数据所带来的优势来提高生产力和效率。然而,在当今社会,存在许多必须考虑并加以防范的安全风险。主要的安全威胁可分为三大类:
- 未经授权的数据访问
- 错误的数据修改
- 数据不可用
这些主题涵盖了大数据系统中发现的安全漏洞,并涉及大部分可通过数据库管理系统(DBMS)或数据库管理系统 [1] 解决的问题。数据库管理系统可通过访问控制机制防止未经授权的数据访问。错误的数据修改和数据完整性问题也可通过使用语义正确性工具进行控制;这确保了输入的数据与字段兼容。这些问题和解决方案的历史在 [3]中进行了讨论。
梁等人[3]发现了一种基于嵌套稀疏采样和互素采样的新型安全传输方法。该方法可用于大数据,以抑制干扰,同时仍保持良好的传输性能。
1.3 大数据在各行业中的应用
1.3.1 医疗保健中的大数据
大数据可以成为医疗保健领域中的宝贵工具。在分析患者数据、满意度指标和医疗设备数据集时,都会用到大数据。美国政府已通过《平价医疗法案》推动所有患者记录实现电子化。这些医疗记录为发挥大数据优势提供了巨大机遇。健康信息学是一门新兴领域,涉及医疗保健中信息技术解决方案的设计、开发、采用和调整,而大数据是这些解决方案的重要组成部分。数据中可用的知识能够被有效利用,有助于加深对疾病的理解,并确定比现有方案更高效的创新疗法[2]。
大数据在制定有关患者护理的重要决策时也是一个关键组成部分。大数据已被用于识别导致危及生命疾病的药物问题,进而推动了政策的改变[9]。
它还被应用于流程改进技术中,以提高患者所接受护理的质量,例如洗手监测系统。大数据可以集成到专家系统中,形成临床支持系统,并提高患者诊断的准确性。利用大数据技术所提供的工具还有助于缓解医护人员的疲劳。这可能会使医生和护士有更多时间与患者相处。
1.3.2 大数据在金融中的应用
大数据被广泛应用于金融行业,从保护个人金融到预测股市趋势。金融行业可以利用大数据系统来检测欺诈性支付。这可用于信用卡提供商识别被盗信用卡信息,或帮助商家识别支付欺诈 [9]。股票市场变得更具可预测性,当今股票经纪人的成功也可通过使用大数据得到提升。
1.3.3 健身中的大数据
大数据推动了当今行业健身工具的新时代。如今,许多身体生命体征监测设备都配有移动应用,可与收集的数据相配合。这些设备都在持续收集数据,当这些数据点被收集、整理和展示后,能够提供广泛的健康和健身益处。以下是大数据在健身领域应用所实现的一些功能:
- 跟踪锻炼
- 创建健康档案
- 个性化饮食计划
- 个性化健身计划
这些工具可以帮助国际社会建立更加明智和平衡的健身生活方式[9]。
1.3.4 零售中的大数据
零售业是一个由大数据驱动的行业,它使供应商能够实时了解购买和销售的产品的确切数量。这种准确的销售和库存数据可用于实时补货上架;当某件商品被售出后,系统即可自动发出补货请求。超市还可以识别畅销商品,并利用数据支持未来进货和补货决策。大数据展示了客户兴趣模型,这些模型被应用于诸如亚马逊的“购买此商品的顾客也购买了”等功能 [9] 中。此外,大数据还用于个性化广告,旨在针对用户的兴趣和购买模式进行精准营销。
1.4 主要数据泄露事件概述
数据泄露正在全球范围内日益普遍。大多数人的信息在未经其知情的情况下被收集并共享。数据泄露过程中丢失的数据可能包括个人的姓名、社会保障号码、驾照号码、医疗记录或财务记录。这些信息泄露可能是有意或无意地将信息泄露给不可信来源。这些数据泄露不仅限于通过数字方式窃取个人信息,还可能包括未经同意访问个人的个人记录。
不仅数据泄露的数量在增加,其影响也在扩大。一次数据泄露可能对超过1.45亿人造成重大影响[7]。这最终导致企业耗费大量时间和金钱来修复受影响人员丢失或被盗的信息。数据泄露每天都在全球范围内发生。个人信息 constantly 受到这些泄露的威胁。以下是一些重大数据泄露事件的示例:
- 安森保险公司:2015年,超过8000万人的姓名、社会保障号码、出生日期、电子邮件地址、就业信息和收入数据被泄露。此次数据泄露可能使安森保险公司承担高达160亿美元的修复费用 [7]。
- 易贝:2014年,超过1.45亿客户受到影响,其个人信息被泄露。这将导致公司为此支付高达2亿美元的费用来解决问题 [7]。
- 全美支付:2009年,超过1.3亿人的财务信息被泄露。该公司为此花费了28亿美元进行修复。2015年,该公司再次遭遇了一起小规模数据泄露事件,影响了另外2000人 [7]。
- 特里卡保险:2011年,载有未加密军事人员个人数据的电脑磁带从一辆汽车中被盗,导致约500万特里卡保险军人受益人受到影响 [7]。
1.5 大数据信息流概述
大数据信息流通常描述了从大量数据中进行提取/收集、传输和分析的过程,这些过程在高层面上构成了大数据项目中的主要环节[10]。尽管这一信息流过程可能十分复杂,但可以将其分解为四个主要阶段:数据提供者、数据收集者、数据挖掘者和决策者[10]。图1.1中展示了大数据信息流中的这些主要参与者,下文将对其进行讨论。
1.5.1 数据提供者
数据提供者是图1.1中的第一个参与者,指拥有对他人或组织而言具有价值的原始数据的个人。这些数据可以包括个人信息(如出生日期、地址、电话号码、个人兴趣和购物习惯)、科学测试结果,甚至交通模式。这仅仅是可收集数据的一小部分,表明即使是看似微不足道的信息,也可能被用来识别数据提供者的某种模式或趋势。
由于数据提供者拥有对决策者有价值的數據,個人有權決定披露或拒絕提供其數據。在數據被披露的情況下,數據提供者需要考慮哪些數據是私密或敏感的,以及這些數據可能如何被使用,並確定如果這些數據在數據洩露期間被竊取可能造成的損害。
1.5.2 数据收集者
数据收集者1.1是图中的第二个参与者,是负责收集有关和/或来自数据提供者的数据的实体。它以多种不同格式(如数据流、数据集市或数据仓库)摄入所有被认为必要的数据。这些信息随后通常被传输并存储在其自身的分布式数据库中。然后,此数据源会被发布给数据挖掘者。
由于数据收集者从数据提供者处获取原始数据,其中包含私人或敏感信息。数据收集者的责任是以一种既能为数据挖掘者提供价值,同时又能对数据提供者进行去标识化的方式处理数据。在进行去标识化时需把握一个微妙的界限,因为过度处理可能导致数据失去可用性,从而使数据收集变得无效。
1.5.3 数据挖掘者
数据挖掘者是图1.1中的第三个参与者,其职责是针对数据收集者发布的数据执行数据挖掘技术。数据挖掘者使用工具对大量此类数据运行复杂的算法。
他们的主要目标是发现有关数据提供者之前可能未被察觉的潜在关系或共同模式,从而为决策者提供有益的洞察。
由于这些深入的数据挖掘技术可能会暴露数据提供者的敏感信息,数据挖掘者还需要采取预防措施,以保护敏感信息不被泄露到提供给决策者的结果集中。这意味着数据挖掘者必须像数据收集者一样,在不降低数据价值的情况下对数据进行处理。
1.5.4 决策者
决策者,图1.1中的最后一位参与者,是使用收集和分析的数据来做出决策以实现某个最终目标的最终用户。该信息可用于确定以什么价格销售哪些产品,或根据数据结果推进某项突破性研究。
由于数据可能已被数据收集器(s)和挖掘者(s)多次转换,决策者需要确保数据仍能提供可信信息,以实现其最终目标。如果没有可信信息,决策者可能会做出有害的商业、财务或研究决策,从而导致不可逆的结果。
1.6 安全标准在大数据信息流中的应用
在第1.5节探讨了大数据信息流中的四个主要参与者之后,接下来我们将讨论安全标准的应用。大数据信息流中的每个参与者都必须遵守其特定的安全标准,以确保数据在整个过程中保持安全。
1.6.1 数据提供者
由于数据提供者的信息正在被采集,因此他们有责任成为保护自身数据安全的第一道防线。最终,数据提供者有权选择是否向数据收集者提供信息,尽管这种权利有时被忽视,导致个人数据在数据提供者未意识到的情况下被提供。
至少从在线视角来看,为了保护自身及其宝贵的数据,数据提供方应考虑使用虚拟专用网络(VPN),设置复杂密码,安装防病毒软件,并及时更新软件补丁至最新版本,以减少安全漏洞。
1.6.2 数据收集者
数据收集者在保护数据提供者信息方面同样重要,因为它会从提供者处接收原始数据。为了防止数据挖掘者收到可直接追溯并识别数据提供者身份的数据,数据收集者必须采取必要措施对数据去标识化。
为了对数据去标识化,数据收集者必须使用某种数据混淆技术,以混淆数据,使其仍可用于预期目的,但可防止数据挖掘者将其直接关联回提供者。
作为数据掩码过程的一部分,收集者可以实施令牌化以提供一定程度的加密。
数据收集者应实施的最后一条安全标准是建立安全访问机制,以确保只有数据挖掘者和其他可接受的各方才能访问数据。
1.6.3 数据挖掘者
数据挖掘者有能力发现数据中隐藏的信息,因此他们必须以某种方式修改数据,以防止可识别信息出现在数据挖掘结果集中。为此,数据挖掘者可以采用多种不同的转换技术来维护数据提供者隐私。这些技术的一些示例包括对数据的某些部分进行随机化和/或通过应用过滤器来重构数据以混淆数据[10]。
这种方法将使数据挖掘者能够在向决策者提供有效的泛化结果的同时保护数据隐私。
1.6.4 决策者
决策者是最终用户,通常不会被视为需要关注数据安全的一方。关键在于决策者必须勤勉地保护其结果,以防止外部来源获取这些信息,从而导致竞争优势的丧失。
为了确保其数据安全,决策者可以实施审计系统,以了解谁访问或更新了信息。另一个需要牢记的重要事项是,数据的质量取决于其准确性和可靠性。确保数据可靠的一种方法是要求数据收集器(s)和挖掘者(s)提供数据来源或跟踪机制,以清晰地展示数据是如何被转换和处理的。
1.7 讨论与结论
大数据已成为许多公司用来分析大量数据以监控、预测和分析趋势的工具。各行业越来越普遍地利用多年来收集的信息进行分析,以可视化趋势和模式。随着信息流动的增加,大数据安全面临的挑战也随之上升。尽管使用大数据带来了诸多好处,但这些好处常常被安全问题的风险所抵消。
各行各业每天都在从大数据的应用中受益。医疗保健、金融、健身、零售等领域一直在利用大数据的优势来增加收入和提高生产力。
随着大数据的使用日益增加,数据泄露的影响也变得更加严重。当某人的信息被未授权的来源访问时,就会发生数据泄露。这可能是有人故意或无意间获取了这些信息。多家公司已成为大规模数据泄露事件的受害者,涉及其客户和员工的数据。由于数据泄露事件的发生频率和影响不断增加,我们必须找到保护个人信息免受不可信来源侵害的方法。
大数据信息流用于展示收集、传输和分析大量数据的过程。该过程分为四个主要步骤:数据提供者、数据收集者、数据挖掘者和决策者[10]。数据提供者处理有价值的数据,包括个人信息(如出生日期、地址、电话号码、个人兴趣和购物习惯)、科学测试结果,甚至交通模式。数据收集者负责从数据提供者处收集数据,将不同格式的数据整合并转换为数据仓库。数据挖掘者使用工具对大量数据运行算法,并发现对决策者有用的关系和模式。决策者根据数据挖掘者提供的信息做出决策以实现目标。这一过程展示了大数据如何经过各个阶段变得有用并取得成功。
不幸的是,通过大数据信息流,安全方面存在问题。当这些信息从数据提供者传递给决策者时,常常会与不可信来源共享。为了确保这一收集过程的安全,流程中的每个参与者都需要采取不同的措施。数据提供者是拥有数据的人,他们有责任决定将哪些内容分享给数据收集者,以及哪些个人信息是无用的。尽可能减少个人数据进入该流程,可以避免部分信息受到影响。
数据收集者的任务是对数据去标识化,其中包括使用扰乱技术。该技术的目的是使数据挖掘者无法将任何数据追溯到个人。数据收集者还必须确保数据传输过程的安全性。数据挖掘者的职责是发现数据中的趋势,同时还必须确保没有信息泄露可追溯到个人。当这些数据到达决策者时,数据中不应再包含任何个人信息痕迹。通过这些步骤,有助于保护个人的个人信息,防止其遭到泄露。

被折叠的 条评论
为什么被折叠?



