统一和开放的数据与人工智能治理

统一和开放的数据与人工智能治理

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Unity Catalog, ]

导读

数据和人工智能的分散治理可能会阻碍创新。本次会议重点介绍Databricks Unity Catalog如何为表格、文件、机器学习模型和人工智能工具提供统一的发现和治理,同时支持任何开放表格格式,如Apache Iceberg和Delta。它简化了访问管理,促进了数据和人工智能质量监控,并提供列级血缘追踪。了解Unity Catalog如何使您能够拥有自己的数据,连接任何数据源,并通过开放API从任何工具或计算引擎访问数据——消除了供应商锁定。探索Mastercard如何有效地使用Unity Catalog来安全地管理其数据和人工智能资产。本次演讲由亚马逊云科技合作伙伴Databricks为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华。

在生成式AI和大型语言模型的时代,数据和人工智能的治理变得至关重要。传统上对数据管理至关重要的有效治理原则,如问责制、合规性、质量和透明度,现在延伸到了人工智能领域。正如Forrester所预测的那样,这使得人工智能治理成为大多数组织的一个重要话题。

然而,治理数据资产是一项实际上具有挑战性的工作。大多数组织都在与数据碎片化作斗争,数据分散在各种来源中,如数据湖、数据仓库、数据库和目录,通常采用多种格式,如Iceberg、Delta Lake和Parquet。此外,资产类型也存在碎片化,包括笔记本、文件、机器学习模型、仪表板、表和视图,分散在各种异构工具中。

这种碎片化导致了数据和人工智能的孤岛式治理,使跨不同孤岛管理访问策略、审计、监控、可观察性和血统变得非常困难。此外,缺乏开放连接性阻碍了消费者跨不同工具、引擎和平台访问和共享数据和人工智能资产的能力,从而阻碍了协作和互操作性。

缺乏内置智能加剧了这一挑战,因为将业务概念与底层数据和模型联系起来需要整合来自各种孤岛的信息。这不可避免地会产生瓶颈,在组织内部,只有少数关键技术专家掌握了部落知识。

这些治理挑战的影响是重大的。碎片化的治理往往会导致合规性、安全性和质量风险以及运营效率低下的复杂性增加。组织难以对其数据和人工智能资产保持统一视图。缺乏开放连接性通常会导致供应商锁定,限制了组织随着生态系统的发展而切换供应商或集成新技术的能力。它还阻碍了数据和人工智能计划的协作和扩展,导致成本增加,因为组织必须利用多种工具、复制数据并创建更多孤岛。

此外,缺乏内置智能限制了组织在整个企业有效民主化数据和人工智能的能力,阻碍了对这些平台的高效利用。非技术用户难以找到和理解各种数据和人工智能资产,从而减缓了创新步伐,阻碍了及时有效的业务决策,最终限制了组织充分利用数据和人工智能获取竞争优势的能力。

Databricks的观点是,理想的治理解决方案应包括三个关键要素:跨数据和人工智能资产以及开放格式的统一治理、开放连接和内置智能。

统一治理确保了跨所有数据集的完整可见性、监控、安全性和合规性,使组织能够在单一系统中管理访问策略、血统发现、可观察性、审计、监控等。这有助于提高运营效率、增强合规性、改善安全态势、降低运营开销,并确保数据质量和信任度。

开放连接使用户能够开放访问和协作,同时避免供应商锁定。丰富的联合功能允许组织连接任何数据源(如数据库、数据仓库和目录),无需数据移动,即可在单一位置启用完整的治理功能,如血统跟踪、标记、细粒度访问控制、审计和搜索发现。开放API使团队能够从任何客户端、引擎或平台读写由Unity Catalog管理的数据,跨Delta和Iceberg生态系统提供灵活性和互操作性。此外,Unity Catalog还能够跨云、区域和平台安全共享数据和人工智能资产,同时将数据保留在组织的存储中,从而减少了昂贵的数据复制需求。

内置智能是Databricks解决方案的一个关键方面。Unity Catalog内置了人工智能,可帮助团队提高生产力并建立竞争优势。基于人工智能的标记和注释(列、表、资产级别)有助于高效记录和理解数据。基于血统信息和使用情况洞察的上下文感知搜索,可帮助用户更高效地搜索并提高生产力。智能助手了解组织数据的独特上下文,并通过自然语言协助用户提出问题、生成和解释代码以及修复问题,从而大大提高了生产力。

此外,Unity Catalog还提供基于人工智能的自主性能优化,以保持低成本和高查询性能。Databricks客户报告了整体生产力平均提高57%,治理能力下的用例交付速度加快49%,展示了Unity Catalog在简化数据和人工智能工作流程方面的价值。

Unity Catalog可与现有的数据目录和治理解决方案协同工作,使组织能够利用现有投资,构建面向未来的治理模型,而无需承担昂贵的迁移成本。

Mastercard的Fabian Tukor讨论了他们与Databricks的合作历程,强调了处理大量数据量和交易率所需的可扩展解决方案的必要性。Mastercard是一家技术和数据公司,业务遍及220个国家,拥有35亿张卡和凭证、1.15亿家商户,每年处理2000亿笔卡交易,相当于每秒超过6000笔交易。

Mastercard的主要重点是防止欺诈,因为未经授权的交易可能会给银行和商户带来巨大成本,最终转嫁给消费者。为了防范欺诈,Mastercard利用大量、多样和复杂的数据集来识别其网络上的异常模式。他们的数据仓库存储了15PB的数据,根据《华尔街日报》的报道,他们至少从2016年开始就一直在使用机器学习进行欺诈预防。

虽然利用数据和人工智能实现快速创新至关重要,但Mastercard也非常重视负责任的数据使用。2020年,他们宣布了数据责任原则,承认他们所拥有的数据属于个人,个人应该控制和从中受益,同时确保数据得到保护和负责任的使用。

Mastercard的优先事项包括帮助用户为其用例找到正确的数据、获得合规访问权限,以及有效利用数据(包括用于人工智能应用)。Databricks的Unity Catalog通过提供自动血统跟踪、质量指标、数据限制和查询可见性,以及统一的数据治理、访问控制和人工智能模型管理平台,协助实现这一过程。

为用例找到正确的数据可能具有挑战性,就像在拥挤的城市中寻找酒店一样。Mastercard旨在为用户提供描述、定义、质量指标、血统信息和数据限制,以帮助发现过程。Databricks中的自动血统跟踪功能尤其宝贵,因为它消除了手动跟踪的需求,而手动跟踪通常是艰巨的,并且往往会遇到阻力。

获取数据访问权限可以类比为通过机场安检,在不同国家和地区,数据和人工智能使用规则仍在定义中。Mastercard旨在为数据访问创建一种“TSA PreCheck”,在Unity Catalog中自动化规则,并利用平台在数据使用、治理和访问控制方面的透明度。这种可审计的方法让Mastercard的隐私律师感到兴奋,使他们能够跟踪用户在获得访问权限后如何使用数据。

一旦用户获得了数据访问权限,他们必须有效地利用数据,而处理复杂查询和包含数百个字段的数据集时,这可能是一个挑战。Mastercard利用Databricks的功能,如查询可见性和类似“Genie”这样基于自然语言的人工智能接口,帮助用户理解和使用数据。Databricks中用于数据和机器学习模型的统一目录尤其宝贵,因为它通过提供从人工智能模型到底层数据的清晰血统,简化了遵守人工智能法规的过程。

Mastercard之旅的关键教训包括:根据业务价值和高层支持确定优先级;跨团队(数据用户、隐私、安全)促进协作;通过动手实践与Databricks平台学习。确定优先级可以更容易地让团队参与数据管理和编目任务,尽管这些任务可能乏味,但一旦完成就会变得非常有价值。跨团队协作对于实现所需的用户体验(找到、访问和有效使用数据)至关重要。最后,通过实践和试验平台,组织可以识别哪些方法有效、哪些无效,从而加快了他们的进程。

总之,演讲者强调了统一、开放和智能治理解决方案对于有效扩展数据和人工智能计划并保持合规性、安全性和负责任的数据使用的重要性。Databricks的Unity Catalog旨在通过其全面的治理功能、开放连接和内置智能来解决这些挑战,使像Mastercard这样的组织能够在确保负责任的数据和人工智能管理的同时推动创新。

下面是一些演讲现场的精彩瞬间:

Fabian Tukor来自万事达卡公司,强调了数据治理在实现数据访问、为用例找到合适数据以及推动创新方面的重要性。

b50123d037f871c1bc4fc6382ed69dc3.png

亚马逊的Unity Catalog提供了一个单一界面,用于管理所有数据和AI资产,提高了整个组织数据资产的合规性、安全性和运营效率。

239516be740728979e2f827a0493dd70.png

Unity Catalog赋予用户开放访问和协作的能力,避免了供应商锁定,通过提供丰富的联合功能连接任何数据库,同时保持数据在原处,实现了完整的治理能力,如血统、标记、访问控制、审计和搜索等,一站式解决。

7eeb2efbe78a7974bc9a990e060f0f0a.png

在现场演示中,展示了Databricks工作区以及与连接的PostgreSQL数据库一起探索Unity Catalog。

a11ed3d016c13d948b06f6167fde8adc.png

Xe Shane演示了Databricks平台如何允许非技术用户使用自然语言查询轻松搜索和分析数据,展示了其易用性和用户友好性。

ab2dbc0ea0e4b1b3d528d2c1255a657b.png

万事达卡公司创新地利用数据和AI来防止欺诈,保护客户免受未经授权的交易,利用了15PB的大型数据仓库和数十年的经验。

2fd8102b3bda9c8981e285be700f3c24.png

Satya Nadella强调了在Databricks Unity上学习和尝试的便利性,他的团队成员在30分钟内就能在一个数据集上尝试,体现了亲身体验的价值。

d67dafc6bf47f53973a8fb5c7da9ddec.png

总结

在生成式人工智能和大型语言模型时代,数据和人工智能的治理对于组织来说变得至关重要。然而,大多数公司面临着诸如治理分散、缺乏开放连接性以及缺乏跨不同数据和人工智能资产的内置智能等挑战。这导致了复杂性增加、供应商锁定以及有效民主化数据和人工智能的能力受限。

Databricks的Unity Catalog解决了这些挑战,为所有数据和人工智能资产提供了统一且开放的治理解决方案。它提供了跨开放格式的统一治理、与任何数据源的开放连接以及连接不同资产的内置智能。这使得组织能够简化数据和人工智能工作流程、提高合规性、改善安全性并推动创新,同时避免供应商锁定。

专注于实现安全和负责任商务的全球科技公司万事达卡与Databricks合作,利用Unity Catalog的功能。通过根据业务价值和高管支持来确定数据治理的优先级、促进团队间的协作以及通过实践学习,万事达卡旨在让员工能够以负责任和高效的方式查找、访问和利用数据和人工智能,从而实现快速创新同时保持合规性和信任度。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值