介绍
在过去的几年中,我们都见证了人工智能和机器学习领域的重要而快速的发展。由于计算能力的提高(由上一代GPU和TPU提供)以及多年来积累的大量数据并且每秒都在创建,这种快速发展正在发生。
从会话助理到肺癌检测,我们可以清楚地看到AI开发对我们社会的几种应用和各种好处。然而,在过去几年中,这一进步带来了成本:在某种程度上丧失了隐私。在剑桥analytica的丑闻是,提出的报警对保密性和数据隐私问题的事件。此外,科技公司(无论是小型还是大型)越来越多地使用数据,导致若干司法管辖区的当局致力于有关数据保护和隐私的法规和法律。欧洲的GDPR是这种行为最着名的例子。
这些问题和规则与AI和机器学习的开发并不直接兼容,因为模型和算法总是依赖于数据的可用性以及将其集中在大型服务器中的可能性。为了解决这个问题,一个新的研究领域正在引起ML研究人员和从业者的兴趣:私人和安全AI。
什么是私人和安全AI?
这个新领域包含一系列技术,允许ML工程师在不直接访问用于训练的数据的情况下训练模型,并避免他们通过使用加密技术获取有关数据的任何信息。
好像黑魔法不是吗?
不要担心......在一系列文章中,我将展示它是如何工作的,以及如何使用开源库PySyft将它应用于我们自己的Python深度学习模型。
该框架依赖于三种主要技术:
- 联邦学习
- 差异隐私
- 安全的多方计算
在本文中,我将介绍Federated Learning及其用于SMS垃圾邮件检测的应用程序。
联邦学习
也许是私人AI中最容易理解的概念,联合学习是一种训练AI模型而不必将数据移动到中央服务器的技术。该术语最初由Google 在2016年发表的一篇论文中使用。
联合学习任务的模式
主要思想是,我们不是将数据带到模型中,而是将模型发送到数据所在的位置。
由于数据位于多个设备中(我将从这里调用工作人员),模型将发送给每个工作人员,然后发送回中央服务器。
Apple设备就是现实世界中联邦学习的一个简单例子。应用程序QuickType(Apple的文本预测工具)实际上使用通过WiFi不时发送到iOS设备的模型,在本地使用用户数据进行培训,并在更新权重时发送回Apple的中央服务器。
PySyft
PySyft是一个为联邦学习和隐私保护而构建的开源库。