统一数据治理:Immuta和Lake Formation
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Imuta, Data Governance, Access Controls, Row Level Security, Column Level Security, Policy Orchestration Engine, Data Lakes, Data Warehouses, Open Table Formats, Unified Access Controls, Catalog Security Models]
导读
参加这场闪电演讲,深入探讨如何解决跨多个平台的复杂数据治理挑战。了解如何实施强大的表级、行级和列级安全措施,这些措施利用了各种数据屏蔽和隐私保护技术。探索在多计算生态系统中,如何统一管理Amazon Redshift、Amazon Athena、Snowflake和Databricks等平台的治理策略,跨越Iceberg、Unity Catalog和Amazon Glue等技术。对于任何希望在当今日益复杂的数据环境中优化数据治理策略和确保安全运营的人来说,这次演讲都是必不可少的。本次演讲由亚马逊云科技合作伙伴Immuta为您呈现。
演讲精华
以下是小编为您整理的本次演讲的精华。
在2024年亚马逊云科技 re:Invent活动上,行业专家Zach Friedman发表了一场题为“统一数据治理:Immuta与Lake Formation”的精彩演讲。他的演讲深入探讨了利用Immuta和Amazon Lake Formation强大功能,跨多个云数据仓库和数据湖统一数据治理的复杂世界。Friedman认可了观众的多样性,包括管理数据湖和从事数据与人工智能工作的专业人士。
Friedman阐述了保护数据访问的三种主要机制:控制谁可以执行查询、管理用户在表格数据源中可以查看哪些行,以及管理用户如何感知列值或是否可以访问特定列。他仔细剖析了行业领先平台的安全模型,包括Snowflake,它通过基于角色的访问控制、作为UDF实现的行访问策略和列屏蔽策略来支持表级、行级和列级安全性。Databricks Unity Catalog采用RBAC、基于用户的访问控制、行过滤器和列掩码。Amazon Redshift利用用户、用户组或角色的访问权限、行级安全(RLS)策略、列级安全(CLS)策略以及源自其Postgres传统的列级权限。Amazon Lake Formation为表级安全提供了两种广泛方式:向IAM主体授予LF权限,以及基于数据标记授予LF标签访问权限。它还支持数据单元格过滤器实现行级安全,尽管不如UDF表达力强,以及列级权限和数据单元格过滤器实现列级安全。Friedman强调了在上一届re:Invent上宣布的一个超酷功能,即通过Amazon IAM Identity Center实现可信身份传播,使LF可以向IDC用户和组授予权限,鼓励大家采用这一功能。
认识到依赖多种安全模型带来的挑战,Friedman强调了统一访问控制的迫切需求。他介绍了开放表格式(OTF)目录的概念,如Iceberg和Unity Catalog,旨在促进Spark、Flink和Trino等引擎之间的一致性和互操作性。对于OTF目录中的表级安全,通常采用基于服务帐户的RBAC,将权限授予角色以访问表。然而,目前缺乏行级安全,只有规范提案存在,而列级安全则依赖于隐藏列的黑客手段或正在积极开发的提案,如Databricks收购的Tabular公司提出的虚拟列方法。
Friedman提出利用像Immuta这样的策略编排引擎作为解决方案。Immuta充当安全元模型,使用户只需编写一次策略,Immuta就可以处理底层安全模型之间的复杂差异。这种创新方法实现了跨Athena、Redshift Spectrum、EMR Spark、Snowflake、Databricks、Trino等平台的统一访问控制。Immuta与Amazon S3等对象存储系统无缝集成,数据以各种文件格式存储。通过利用Apache Iceberg,Immuta使引擎能够将文件视为表,从而实现高效查询和数据操作。同时,Immuta与每个平台的安全模型接口,充当整体安全层,确保整个数据生态系统中的访问控制一致。
Friedman承认,虽然像Snowflake这样的平台将其安全模型扩展到支持与内部表类似的OTF表,包括RBAC、行访问策略和列屏蔽策略,但组织仍然面临着支持每个平台安全模型的挑战,除非他们仅使用具有粗粒度访问控制要求的开源平台。
总之,Friedman的演讲阐明了通往统一数据治理的道路,Immuta扮演指挥家的角色,将多个平台的不同安全模型融合成一个协调的访问控制交响乐。通过采用这种方法,组织可以自信地驾驭异构数据环境的复杂性,充分释放数据资产的潜力,同时保持健全的安全性和合规性标准。
下面是一些演讲现场的精彩瞬间:
演讲者通过询问谁在管理数据湖或从事数据和人工智能团队的工作来吸引观众的注意力,为讨论这些主题做铺垫。
演讲者解释了OTF目录中基于角色的访问控制(RBAC)的表级安全性,其中授予角色访问表的权限,并在Iceberg目录实现中使用服务帐户主体进行授权。
演讲者讨论了数据平台中的列级安全性功能,包括Tabular使用的列隐藏技术,以及Iceberg即将提出的列屏蔽建议。
演讲者解释了支持开放表格式的平台如何扩展其安全模型,例如Snowflake的RBAC具有角色继承、行访问策略和列屏蔽策略,并将其应用于开放表格式,就像其内部表格一样。
演讲者强调了在不限制粗粒度访问控制的要求的情况下,跨平台支持不同安全模型的挑战,即使使用了目录。
统一跨多个数据平台的访问控制,采用集中式安全模型和策略管理。
总结
在不断演进的数据治理领域中,统一跨不同平台的访问控制已成为一项当务之急的挑战。Zach Friedman在reInvent2024大会上的演讲深入探讨了这一难题,提供了对各种数据引擎所采用的安全模型的异构性以及协调它们的潜在解决方案的见解。
Friedman阐明了访问控制的三个主要层级:表级、行级和列级,每个层级在Snowflake、Databricks、Amazon Redshift和Amazon Lake Formation等平台上都由不同的机制管理。他强调了这种分散带来的复杂性,组织必须在这些不同的安全模型中穿梭,以确保数据治理的一致性。
Friedman随后探讨了开放表格式目录(如Iceberg和Unity Catalog)在提供统一的元数据层并实现跨引擎互操作性方面的作用。然而,他承认这些目录在实现与平台特定安全模型的完全等效性方面存在局限性,尤其是在行级和列级访问控制领域。
Friedman演讲的核心集中在政策编排引擎的概念上,以他公司的解决方案Immuta为例。这种创新方法充当安全元模型,允许组织一次定义政策,并将其无缝转换并在各种底层安全模型中执行。通过弥合异构平台之间的差距,Immuta承诺统一数据治理,确保无论采用何种引擎或平台,都能实现一致的访问控制。
最后,Friedman的演讲强调了在技术多样化的背景下,统一数据治理的迫切需求。通过采用Immuta等政策编排引擎,组织可以跨越不同安全模型的复杂性,释放数据的真正潜力,同时保持强大的访问控制和合规性。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。