使用数据授权无缝交换结构化和非结构化数据
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Data Exchange, Data Exchange, Data Grants, Data Sets, Data Sharing, Cloud Nativestructured Data, Unstructured Data, Data Delivery Methods, Data Accessdata Monetization, Data Products, Amazon Marketplace, Data Providersdata Subscribers, Data Authorization, Data Distribution, Data Analytics]
导读
在这个闪电演讲中,了解如何利用Amazon Data Exchange中的数据授权,轻松安全地在亚马逊云科技账户和组织之间共享数据。本次会话演示如何创建数据授权并将其扩展到另一个亚马逊云科技账户。学习如何接受数据授权,并使用其他亚马逊云科技服务处理数据。
演讲精华
以下是小编为您整理的本次演讲的精华。
在人工智能时代,数据已成为黄金标准,是企业渴望获取的宝贵商品,以训练模型、丰富组件和增强仪表板。虽然生成式人工智能和应用程序开发在云基础设施的推动下取得了长足进步,但企业之间的数据传输过程却停滞不前,仍然使用SFTP或物理硬盘等陈旧方法。
这种数据在云中创建和消费,但传输却依赖外部手段的矛盾,促使客户向亚马逊云科技提出了一个迫切的问题:是否有一种云原生解决方案可以在企业之间交换数据?一种简化流程、加强安全性和可靠性的解决方案?某客户希望与独立软件供应商(ISV)或供应商共享客户注册数据,以实现流失预测分析,凸显了无缝数据交换解决方案的需求。
为此,亚马逊云科技于2019年推出了Amazon Data Exchange,这是一个数据市场,旨在提供单一窗口管理数据产品、数据授权、传入数据和传出数据。该平台无缝支持结构化和非结构化数据,包括存储在Amazon S3和Amazon Redshift中的数据,为数据交换提供了全面的解决方案。
对于非结构化数据,Amazon Data Exchange在Amazon S3上提供了两种交付方式。第一种是Data Exchange for Amazon S3 file,可创建数据并与订阅者共享链接,允许他们直接将数据下载到自己的亚马逊云科技账户中,实现数据移动。第二种方式是亚马逊云科技 Data Exchange for Amazon S3,采用不同的方法。在这种方式下,数据位于S3存储桶中,任何数据所有者允许的订阅者都可以直接以只读模式访问数据。这种方法确保对数据的任何更改或更新都会立即传播给所有订阅者,促进对最新信息的实时访问。
对于结构化的关系数据,亚马逊云科技 Data Exchange for Amazon Redshift成为解决方案。该方法使用户能够选择他们在Redshift集群中的部分数据,并通过Data Exchange共享这些数据。订阅者可以立即直接以只读方式访问数据所有者在Redshift集群中的数据,确保数据所有者所做的任何修改都会立即反映在所有订阅者那里,保持数据的完整性和一致性。
Amazon Data Exchange提供的最后一种交付方式是API。在这种方式下,订阅者可以使用自己的Amazon Identity and Access Management (IAM)凭证访问共享数据。Amazon Data Exchange通过数据提供商API管理身份验证和授权过程,简化了访问并增强了安全性。
Amazon Data Exchange的一个关键特性是数据授权的概念。在亚马逊云科技账户中,任何人都可以使用任何支持的交付方式(S3、Redshift或API)创建、发送和接收数据授权。一旦第三方接受数据授权,他们就可以立即访问实时共享的数据,开启分析的无限可能。订阅者可以利用亚马逊云科技自有或第三方ISV工具进行分析、机器学习、生成式人工智能、商业智能、仪表板等,从共享数据中提取有价值的见解。
为了说明这一过程,演讲者Chidu演示了在控制台上创建和管理数据授权的流程,尽管强调整个过程可以通过SDK以编程方式自动化。第一步是创建数据集,定义其名称和描述,并添加资产,例如从Amazon S3导入数据。例如,Chidu演示了创建一个表示客户注册数据的数据集,以共享进行流失预测分析。数据集完成后,下一步是创建数据授权。
在创建数据授权时,用户选择自己拥有的数据集,提供名称和描述,并指定接收者的12位亚马逊云科技账户ID。关键的是,用户可以定义访问的持续时间,授予永久访问权限(无到期日期)或限时访问权限(到特定日期为止)。在该日期之后,接收者将完全失去对数据的访问权限,而无需数据所有者维护IAM策略或从跨账户访问其S3存储桶或Redshift数据共享中删除账户号码。亚马逊云科技会无缝管理此过程。此外,用户可以启用或禁用分发,允许或阻止接收者与其组织内的成员账户共享数据授权,从而对数据传播进行精细控制。
创建并发送数据授权后,接收者可以在其Amazon Data Exchange控制台中接受它,从而获得对底层数据的访问权限。Chidu强调,从创建到接受数据授权的整个过程都可以使用SDK和事件桥接通知自动化,实现与现有工作流和系统的无缝集成。
除了数据授权之外,Amazon Data Exchange还支持将数据集作为数据产品在Amazon Marketplace上公开。这一功能使独立软件供应商(ISV)能够将其数据与软件产品一起货币化,创造新的收入来源,并促进蓬勃发展的数据生态系统。例如,ISV可以将其客户数据列为Amazon Marketplace上的数据产品,允许其他公司购买并利用这些宝贵信息进行自己的分析和应用程序。
演讲者最后为与会者提供了宝贵的资源、文档链接和实验室,鼓励他们在自己的亚马逊云科技账户中探索Amazon Data Exchange、数据集和数据授权。这种实践方式使与会者能够亲身体验这种云原生数据交换解决方案的强大功能和灵活性,帮助他们做出明智决策,并充分利用Amazon Data Exchange为数据驱动的努力赋能。
总之,Amazon Data Exchange代表了数据交换范式的转变,提供了一种云原生解决方案,简化了流程、增强了安全性并提高了可靠性。通过提供集中管理数据产品、授权和访问的平台,Amazon Data Exchange使企业能够利用内部和外部数据,丰富其人工智能模型、组件和仪表板。凭借对结构化和非结构化数据的支持、各种交付方式以及数据货币化功能,Amazon Data Exchange成为数据交换领域的游戏规则改变者,开启了数据驱动创新和协作的新时代。
下面是一些演讲现场的精彩瞬间:
尽管生成式人工智能和云基础设施取得了进步,但企业之间的数据传输仍然停滞不前,许多企业仍然依赖过时的方法,如SFTP或物理硬盘驱动器,即使数据是在云中创建和消耗的。
Amazon Data Exchange提供了一个集中式平台,用于管理和交换结构化和非结构化数据产品、数据授权和跨亚马逊云科技服务(如S3和Redshift)的数据订阅。
Amazon Redshift Data Sharing使授权订阅者能够实时访问Redshift集群中的数据,确保数据一致性和只读访问。
演讲者解释了如何创建和共享数据授权,允许对单个数据集进行重复使用,为多个客户提供不同的访问持续时间。
通过Amazon Data Exchange,客户可以无缝接受数据授权并获得对有权访问的数据集的访问权限,从而实现高效的数据共享和协作。
总结
在人工智能时代,数据已成为宝贵的商品,企业希望通过整合内部和外部数据源来丰富其模型和仪表板。然而,企业之间的数据传输过程一直停滞不前,依赖于过时的方法,如SFTP或物理硬盘。为了解决这一挑战,亚马逊云科技于2019年推出了Amazon Data Exchange,这是一个云原生平台,旨在促进不同组织之间安全可靠的数据交换。
Amazon Data Exchange提供了一个集中式平台,用于管理数据产品、授权、传入和传出数据,支持结构化和非结构化数据格式。它提供了多种传输方式,包括用于非结构化数据的Amazon S3、用于结构化数据的Amazon Redshift以及用于无缝集成的API。数据授权使用户能够创建、发送和接收数据访问权限,允许第三方使用熟悉的亚马逊云科技工具分析和利用共享数据。
该平台使数据提供商能够通过在亚马逊云科技市场上列出的数据产品来控制访问期限、分发权限和货币化选项。借助Amazon Data Exchange,组织可以简化数据共享流程,确保数据的新鲜度,并在基于云的人工智能生态系统中开辟新的合作和创新机会。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。