AI 开发中的数据隐私：数据本地化-优快云博客

原文：towardsdatascience.com/data-privacy-in-ai-development-data-localization-50df725bfa1c?source=collection_archive---------6-----------------------#2024-06-18

为什么你应该关心你的数据存储在哪里？

https://medium.com/@s.kirmer?source=post_page---byline--50df725bfa1c--------------------------------https://towardsdatascience.com/?source=post_page---byline--50df725bfa1c-------------------------------- Stephanie Kirmer

·发表于 Towards Data Science ·阅读时长：11 分钟·2024 年 6 月 18 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a3b18000e10dc15341369f1e1afb4742.png

图片来自 Luke Stackpoole 在 Unsplash

在为即将在 6 月 25 日于旧金山举行的 AI 质量大会准备讲座时（门票仍然有售！），我遇到了许多值得深入讨论的话题，但由于时间有限，我只能简要提及。在我的讲座中，无法详细展开这些内容。因此，为了给大家提供更多信息并更好地解释这些话题，我决定开始一系列小专栏，讲解与机器学习和 AI 开发相关的内容，同时注意数据隐私和安全。今天，我将从数据本地化开始。

在开始之前，我们应该澄清数据隐私和安全法规所涵盖的内容。简而言之，它适用于“个人数据”。但是，什么算是个人数据呢？这取决于司法管辖区，但通常包括 PII（个人身份信息，如姓名、电话号码等），以及可以合并在一起使某人可识别的数据（如邮政编码、生日、性别、种族、政治倾向、宗教等）。这还包括某人的照片、视频或音频记录、计算机或浏览器的详细信息、搜索历史、生物识别信息等。GDPR 关于此的规定可以在这里查看。

既然这个问题已经解决，让我们深入探讨数据本地化以及它与我们作为机器学习开发者的关系。

什么是数据本地化？

很高兴你提到这个问题！数据本地化本质上是关于你的数据存储在哪个地理位置——如果你进行数据本地化，那么你就是将数据存储在数据创建的地方。（这有时也被称为“数据驻留”，与之相对的是“数据可移植性”。）如果你的数据集在 AWS S3 的 us-east-1 区域，你的数据实际上是存储在美国某个地方，具体是在弗吉尼亚州北部。为了更精确，AWS 在弗吉尼亚州北部有几个具体的数据中心，你可以在线获取它们的准确地址。但对我们大多数人来说，知道这个地区的大致位置就足够了。

我为什么要关心数据中心的位置？难道云端不就是“无处不在”吗？

知道你的数据存储在哪里是有充分理由的。首先，数据加载/写入云端的速度可能会受到物理距离的影响，这取决于你和计算机与数据中心所在区域的远近。但除非你在进行极高速计算，否则这通常不会构成大问题。

关心数据存储地点的一个更重要的原因（也是数据隐私的一部分），是全球范围内的隐私法规（以及你与客户的合同和顾客填写的同意书）对于数据本地化有规定。关于数据本地化的监管要求个人数据必须存储在该地区的服务器上，尤其是关于该地区公民或居民的个人数据。

一般注意事项：

这并不总是适用于所有类型的数据（财务数据通常会涉及到）
并非所有类型的企业都适用数据本地化要求（科技公司更常涉及此类规定）
这可能是由政府要求触发的，也可能是自动的（例如越南）
有时你可以获得同意来移动数据，有时则不能。
有时你只需将数据最初存储在本国，然后可以稍后再移动（参见俄罗斯）
有时你可以将数据存储在原始国家以外的地方，但对于数据可以去往的其他地方有一定限制（参见欧盟）

此外，私人公司有时会在合同中施加数据本地化要求，可能是为了遵守这些法律，或者是为了减少数据泄露或其他政府对数据的监控风险。

这意味着，字面上讲，你可能会受到法律的限制，无法在某些地点存储特定数据，主要是基于数据的主体是谁，或原始数据所有者是谁。

示例

使用一个具体的（简化的）例子可能会更容易理解。

你运营一个人们可以进行购买的网站。你在这些购买过程中收集数据，比如信用卡详情、地址、姓名、IP 地址和其他一些信息。你的同意条款/细则没有提到任何关于数据本地化的内容。
你从俄罗斯、印度和阿联酋获得了客户。
除非你获得了明确同意，否则来自这些访客的所有个人数据都要遵守不同的数据本地化规则。

这对你意味着什么？所有这些数据需要以不同的方式进行处理。

俄罗斯客户的数据需要最初存储在俄罗斯的服务器上，然后可能根据适用的规则进行转移。
来自欧盟客户的数据可以存储在具有充分数据安全法律的国家（尤其是俄罗斯除外）。
由于你没有从阿联酋客户那里获得将数据存储到其他地方的同意，因此阿联酋客户的数据需要存储在阿联酋境内。

这为数据工程带来了明显的问题，因为你需要为所有数据建立独立的管道。这对建模和训练也是一个挑战——你如何构建数据集来实际使用？

获取同意

如果你已经获得了阿联酋客户的同意来移动数据，可能就没问题了。数据工程仍然需要通过特殊路径将俄罗斯客户的数据传输，但你可以将数据汇总用于训练。然而，因为你没有获得同意，所以现在卡住了！确保你知道你的同意工具包含了哪些权限和授权，以免陷入这种困境。

实时组合

假设现在已经太晚，另一种解决方案是使用一个计算平台，在训练时从不同的数据库加载数据，实时汇总数据集并训练模型，而不会将任何数据写入磁盘的单一位置。一般共识（非法律建议）是，模型本身不是个人数据，因此不受法律规则的约束。但这需要工作和基础设施，所以要戴上你的开发运维帽子。

如果你的数据量非常庞大，这可能会很快变得计算上昂贵。如果你基于这些数据生成特征，但案件的个人数据仍然是可解释的，那么你不能将所有内容都保存在一个地方，而是需要将去标识化/汇总后的特征单独保存，或将其写回到原始地区，或者每次实时重新计算它们。所有这些都是棘手的挑战。

去标识化和/或汇总

幸运的是，还有另一种选择。一旦你汇总、总结或彻底（不可逆地）去标识化数据，它就失去了个人数据保护的法律效力，你可以更轻松地处理它。这也是一个强有力的激励，让你不要存储可以识别身份的个人数据！（此外，这可以减少数据泄露和被黑客攻击的风险。）一旦数据不再受到法律保护，因为它不再是高风险数据，你就可以按自己的需要处理它，随意保存数据。提取不可识别的特征，并尽可能放弃可识别数据。

然而，决定何时数据已经充分聚合或去标识化，以至于本地化法律不再适用，有时是一个难以判断的问题，因为正如我上面所描述的，许多类型的人口统计数据是个人数据，因为与其他数据点结合时可能会导致身份可识别性。我们通常习惯于认为，去除个人身份信息（如全名、社会保险号等）后，数据就可以随意使用了。但在许多司法管辖区，法律并不这么认为！请咨询你的法律部门，并对什么构成风险保持谨慎。理想情况下，最安全的做法是数据不再是个人数据，例如不包括个人姓名、人口统计信息、地址、电话号码等，或者不再以未哈希化、可读的明文格式呈现。这不是法律建议，请咨询你的法律部门。

我们已经习惯了可以随时携带数据，进行处理和计算，然后存储数据——无论是在笔记本电脑、S3、GCS，还是其他你想要的地方。但随着我们收集越来越多的个人数据，并且越来越多的全球数据隐私法律生效，我们需要更加小心我们的操作。

常见问题

如果你不知道数据的来源该怎么办？

这是一种棘手的情况。如果你拥有一些关于人们的个人数据，但不知道这些数据来自哪里，也不知道这些人在哪里（可能也不知道他们填写了哪些同意书），我认为安全的解决方案是把这些数据当作敏感数据来处理，对其进行去标识化处理，如果能适应你的使用场景的话，可以将其聚合，并确保它不会在数据隐私法下被视为个人或敏感数据。但如果由于数据使用方式的限制无法这样处理，那就该找律师咨询了。

如果你的公司无法负担全球范围内的数据中心怎么办？

基本上，这是相同的答案。理想情况下，你应该确保同意解决方案到位，但如果没有，我建议在从客户或用户那里接收到数据时，立即采取去标识化措施。收到用户的数据后，将数据哈希化，使其不可逆，并使用这些哈希数据。特别小心人口统计或其他敏感个人数据，但绝对要立即去标识化个人身份信息（PII）。如果你从不存储可能会被反向工程识别个人身份的敏感数据，那么你就不需要担心数据本地化的问题。这不是法律建议，请咨询你的法律部门。

为什么各国要制定这些法律？

这有几个原因，其中一些比其他的更为合理。首先，如果数据确实存储在该国，那么您在该国就有一定的商业存在（或您的数据存储提供商有），这样如果您滥用他们公民的数据，当局更容易行使管辖权并对您进行处罚。其次，这支持任何国家的科技行业经济发展，因为有人需要为数据中心提供电力、冷却、人员、建筑等支持。第三，不幸的是，一些国家对其公民实施监控制度，在该国建立数据中心使得极权政府更容易访问这些数据。

作为数据科学家，我该如何减少这些影响？

提前规划！与公司相关方合作，确保初步数据处理符合规定，同时还能获取所需的数据。并确保您了解客户所提供的同意，以及这赋予的权限。如果您仍然持有受本地化规则约束的数据，那么您需要找到一种方法来管理这些数据，确保它永远不会保存到位于错误位置的磁盘上，或者将数据去标识化和/或汇总，使其不再具有敏感性，从而使数据隐私法规不再适用。

我需要了解哪些主要的数据本地化法律？

这里列出了一些要点，但这并不全面，因为有许多此类法律，并且新的法律不断出台。（再次提醒，这不是法律建议）：

印度：数字个人数据保护法（DPDP）是该国的国家数据隐私法规。这项法律并不像某些法律那样严格，但是印度政府的各个部门可以对特定类型的数据制定更严格的政策。印度央行就是一个例子，他们实施了比国家法律更为严格的数据本地化规则。像美国运通这样的金融公司曾因将印度金融交易的数据存储在印度境外的服务器上而被罚款。
中国：个人信息保护法（PIPL）是他们的国家数据隐私法规，数据本地化规则相对复杂。该法律适用于“向中国境内个人提供产品或服务”以及/或“分析和评估中国自然人的行为”，因此适用范围相当广泛。如果数据被法律视为“重要”或是“能够识别或识别自然人的信息”，那么这些数据很可能会受到数据本地化的限制。和往常一样，这不是法律建议，您应该咨询您的法律部门。
俄罗斯：俄罗斯已经有数据本地化法规定了相当长时间，许多公司，包括 Facebook 和 Twitter，因违反这些规定而受到罚款。“数据本地化法第 18 条第 5 款要求，收集俄罗斯公民个人数据的俄罗斯和外国数据运营商，包括通过互联网收集的数据，必须首先使用俄罗斯数据库记录、存储、整理、更新和提取数据。” 还有更多适用的法律（详情请见链接）。在初步收集和存储数据到俄罗斯服务器之后，数据可以转移到其他地方。
越南：他们的2018 年法律要求某些数据必须在国内存储 24 个月，应政府要求。这适用于国内公司以及某些外资公司，涉及电子商务、社交网络和其他数字服务领域。此外，任何数据传输到第三方都需要客户同意。
欧盟（GDPR）：欧盟对某些国家设定了特定规则，规定这些国家的公民数据不能存储（例如俄罗斯），原因是对国家监控和数据隐私的担忧。
阿联酋：对于大多数数据，必须获得数据主体的同意才能将其数据传输到阿联酋以外的地方。在某些特定情况下，这种同意是不足够的——例如，支付处理数据必须保存在阿联酋境内。
日本：数据主体必须同意其数据被转移到国外，除非另一个国家与日本有特定的数据共享协议。

还有其他潜在的考量因素，例如公司的规模（一些地方对小公司有更宽松的规则，一些地方没有），所以这些内容不应被视为你公司业务的最终答案。

结论

如果你看到这里，感谢你！我知道这可能有些枯燥，但我会用一个故事来奖励你。我曾经在一家公司工作，我们的合同中有数据本地化条款（不是法律，而是另一家公司设置的规则），所以任何在欧盟产生的数据都必须保存在欧盟内，但我们已经在美国为北美设置了数据存储。

由于各种原因，这意味着我们创建了一个只包含欧盟数据的新副本数据库，数据库设在欧盟，我们将这两个版本的整个 Snowflake 数据库并行存放。如你所料，这成了一场噩梦，因为如果你创建了一个新表，或者更改了字段，或者基本上对数据库做了任何更改，你都必须记得在另一个数据库上复制这些操作。自然，大多数人都没记得这样做，因此两个数据库之间的差异变得非常大，直到架构之间存在显著差异。所以我们所有人都需要编写大量的条件代码来处理查询和提取数据的工作，以便根据你提取数据的数据库来确保列名、字段类型、表名等正确，从而能够在不将数据保存到错误位置的情况下进行“即时”合并。（别让我开始谈论 BI 目的下重复的仪表板。）我不推荐这样做！

这些规定给许多领域的数据科学家带来了真正的挑战，但保持对法律义务的了解，并保护自己的工作和公司免受责任是非常重要的。你遇到过本地化挑战吗？如果你找到了解决方案，欢迎在这篇文章下留言，分享我没有提到的内容。