迁移至Amazon Redshift:实现数据仓库的现代化
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Redshift, Data Warehouse Modernization, Amazon Redshift, Data Sharing Architecture, Near Real-Time Analytics, Generative Ai Integration]
导读
你是否花费太多时间在数据仓库管理任务上,如硬件配置、软件修补和性能调优,而没有足够的时间来构建应用程序和利用数据进行创新?每天都有数以万计的亚马逊云科技客户依赖Amazon Redshift,在不管理数据仓库基础设施的情况下,在所有数据上实现秒级运行和扩展分析。在本次会议中,听取亚马逊云科技客户分享他们迁移到现代云数据仓库和使用Amazon Redshift进行分析的历程。学习构建强大的分析和机器学习应用程序的最佳实践,以及如何在保持低成本的同时实现大规模运营。
演讲精华
以下是小编为您整理的本次演讲的精华。
2024年亚马逊云科技 re:Invent大会上举办了一场题为“迁移到Amazon Redshift:现代化您的数据仓库”的精彩会议,由Amazon Redshift高级产品经理Raza Hafiz主讲。与会者还包括来自Zalando的Sebastian Harold和来自ADP的Ravi Tari Setti,他们分享了使用Amazon Redshift现代化数据仓库的经验。
Raza Hafiz首先强调了数据在推动关键业务决策和推动多个组织数字化转型中的关键作用。他将数据视为生成式人工智能的关键构建块,引用一项研究显示,97%的高管认为生成式人工智能将改变他们所在的行业,67%的组织计划增加对生成式人工智能和数据的支出。
然而,利用数据的力量仍然是一个挑战,因为埃森哲的一项研究显示,只有32%的组织能够从数据中获取价值。这主要是由于数据系统的孤立、复杂和分散的性质,数据分散在数据仓库、数据湖、运营数据源、本地系统和SaaS应用程序中。
为了应对这些挑战,亚马逊云科技分析提供了一个端到端的数据策略,使客户能够从多个来源摄取数据,处理数据,分析数据,并使用专门构建的数据存储或他们选择的分析工具(如Spark SQL、AI/ML或生成式人工智能)发现改变游戏规则的见解。亚马逊云科技分析还提供了全面的安全性和治理框架,确保数据从端到端的安全。
Raza Hafiz介绍了下一代Amazon SageMaker,这是一个统一的平台,将数据分析和人工智能融为一体。该平台使用熟悉的亚马逊云科技工具(如Amazon Redshift和Amazon S3)实现更快的协作和更快的解决方案构建。它还通过开放的湖仓减少了数据孤岛,允许访问所有数据,而不仅仅是数据仓库中的数据。此外,下一代Amazon SageMaker确保了每一个数据的端到端安全性和治理。
在下一代Amazon SageMaker中,Amazon Redshift是最具价格/性能比的SQL引擎,有数以万计的客户使用它来整合从TB到PB的结构化和非结构化数据,并大规模分析这些数据。
Raza Hafiz强调了Amazon Redshift为满足客户需求而推出的几项关键创新。这些创新的核心是使用数据共享的多仓库架构,它允许跨组织无缝、安全地共享数据,以及资源工作负载隔离,使Redshift具有可扩展性、高性能和经济高效性。
此外,Amazon Redshift提供了以分析优化的列式格式存储数据以进行高性能查询的能力,以及对开放表格式(如Apache Iceberg)的支持,从而实现对所有数据的分析。
在创新光谱的左侧,引入了零ETL和AutoCopy等功能,消除了从运营数据存储和Amazon S3等源摄取数据时管理和创建复杂数据管道的需求。这解决了客户在将数据摄取到数据仓库中进行分析时面临的常见挑战。
在创新光谱的右侧,Amazon Redshift允许客户以他们选择的分析方式分析数据。业务开发人员、工程师和其他人员可以利用SQL、Spark、AI/ML甚至生成式人工智能来支持他们的工作负载,提供了数据分析的灵活性。
这些创新得以实现是通过在几个关键领域持续进行改进。首先,在价格、性能、可扩展性和安全性方面,Amazon Redshift在几年前推出了数据共享读取,今年又推出了数据共享写入。这一功能允许客户将工作负载分布在多个Redshift数据仓库上,不仅可以读取数据,还可以通过其他计算集群写入数据。
此外,Amazon Redshift增强了自动化和工作负载管理功能,减轻了客户调优工作负载的负担,因为繁重的工作由服务自动处理。
其次,Amazon Redshift专注于在数据湖和Redshift上实现SQL,使客户能够无缝访问他们的所有数据,而不仅仅是Redshift中的数据,并使用他们选择的分析工具,无论是SQL还是Spark。
第三,Amazon Redshift通过引入零ETL、AutoCopy和流式摄取等功能,简化了客户的摄取过程,实现了数据一落入Amazon Redshift就可以进行近乎实时的分析。
第四,Amazon Redshift通过引入AI驱动的扩展功能,简化了数据分析工作负载,消除了客户对资源管理的担忧。
最后,Amazon Redshift扩大了Amazon Redshift Serverless的计算能力,使客户能够将其用于更广泛的工作负载。
此外,Amazon Redshift与生成式人工智能集成,首先与Amazon Bedrock集成,后来又与Variate V2功能(如Amazon Q)集成,使客户能够用自然语言提出问题,并自动将其转换为SQL查询。这消除了编写复杂SQL查询的需求,因为客户只需要询问特定维度和日期范围的数据切片即可。
这些创新使客户能够将Amazon Redshift用于传统商业智能和报告之外的广泛用例。客户正在利用Amazon Redshift构建具有自助服务功能的现代数据架构、创建数据共享架构(无论是中心辐射式还是数据网格式)以跨多个Redshift集群分布工作负载,并实现数据一落入Amazon Redshift就可进行近乎实时的摄取和分析。
此外,Amazon Redshift使客户能够分析他们的所有数据,而无需维护多个副本,因为它允许跨数据湖、Redshift和运营数据源进行查询,而不会出现任何问题。
Raza Hafiz随后分享了客户如何使用Amazon Redshift来支持其业务的真实用例。第一个用例涉及著名酒店公司Hilton,该公司于2017年迁移到Amazon Redshift,并于2023年决定现代化其架构。Hilton的目标是整合来自全球多个物业的数据,对其进行分析和处理,并发现与客房预订和客户体验相关的见解。
为了实现这一目标,Hilton采用了由Redshift Serverless和多仓库架构(使用Amazon Redshift Serverless和数据共享)提供支持的数据共享架构。该架构使Hilton能够通过跨多个Redshift集群分布工作负载来满足所有业务SLA。此外,它还满足了22,000名活跃用户同时对数据运行查询的需求,这是一个惊人的用户数量。
该架构的可扩展性使Hilton能够每月无缝添加2,000名用户,随着工作负载的变化而适应增长。通过整合来自不同物业的数据并发现有关客户体验的见解,Hilton使用这一架构优化了其运营。
第二个用例是卫星电视供应商Dish Network的母公司EchoStar,它实施了使用Amazon Redshift的近乎实时分析解决方案。EchoStar正在从150个Amazon Managed Streaming for Apache Kafka主题摄取数据,每天摄取10TB的数据。主要挑战是确保其工作负载能够扩展并在所需的SLA内运行。
EchoStar采用了使用Amazon Redshift、Redshift Serverless和数据共享的多仓库架构。在迁移到这一架构之前,摄取数据的延迟范围为0到2.58天。然而,迁移后,摄取延迟降低到了令人难以置信的37秒,为像EchoStar这样的电视供应商开启了基于近乎实时用户数据进行定向广告等前所未有的机会。
第三个用例涉及亚马逊云科技解决方案架构团队设计的生成式人工智能聊天机器人架构。该架构接收用户输入(如用户ID和用户名),并将此信息传递给Amazon Redshift。Amazon Redshift存储了从多个来源(如运营数据存储和数据湖)收集的全面用户数据,包括姓名、地址、年龄、爱好以及过去和未来的旅行行程。
从Amazon Redshift内部,这些数据通过与Amazon Bedrock和Anthropic Claude大型语言模型的新集成传输到Amazon Bedrock。然后,该模型利用存储在Amazon Redshift中的数据为用户创建个性化的旅行行程,专门针对他们的兴趣和爱好。
Raza Hafiz现场演示了这一用例,展示了亚马逊云科技控制台、Amazon Bedrock和Amazon Redshift。他演示了从Amazon Redshift Serverless集群查询用户配置文件和酒店预订数据,并将其传递给Amazon Bedrock。使用自然语言提示,他展示了Amazon Bedrock如何根据存储在Amazon Redshift中的用户数据生成相关响应,例如为即将前往泰国的行程建议活动或提供天气信息。
在分享了这些引人入胜的用例之后,Raza Hafiz邀请了来自Zalando的Sebastian Harold分享他们利用Amazon Redshift的强大功能现代化数据生态系统的历程。
Zalando高级首席数据工程师Sebastian Harold介绍了该公司作为欧洲领先的多品牌时尚目的地,为超过20个国家的5000多万活跃客户提供服务,创造了超过140亿欧元的GMV(商品总价值)。
为了在大规模上提供无缝的时尚体验,Zalando认识到需要成为一家科技公司,利用数据和人工智能驱动所有运营。Zalando利用数据和人工智能进行尺码推荐以降低退货率,实现完美定价、预测、物流、营销、内容选择、用户选择用于活动以及欺诈检测。
认识到数据的重要性,Zalando建立了一个包含四个关键组件的大数据网状平台:数据产品位于中心,分散的领域拥有作为专家的数据团队,计算治理以促进数据工作,以及一个所有数据产品所在的自助服务平台。
聚焦于自助服务数据平台,Sebastian Harold透露,它提供SQL数据访问、报告、仪表板、转换、编排、数据发现、质量测量、教育和培训。
该平台的采用率令人瞩目,每月有超过6,000名活跃用户,占Zalando企业员工的80%以上。该公司已在数据湖中积累了超过20PB的数据,主要采用delta格式,并维护着约5,000个由350个跨所有业务单位的团队拥有的数据产品。
快速服务层是Zalando数据生态系统的关键组件,为他们的主要数据集提供快速SQL访问,包括大约5,000个表和视图。该层每周为超过3,000人提供仪表板和报告服务,并由于其速度而促进了临时分析。拥有300TB的内部存储,快速服务层主要从S3加载数据并导出到S3,充当一个非经典数据仓库,专注于SELECT查询,最小化ETL操作。
然而,Zalando面临着现有快速服务层架构的挑战。单体集群的扩展针对每周的几个高峰负载(如周一早上运行的每周和每日作业)进行了优化。在这些高峰时间,集群大小被优化以处理负载,但在80%的时间里,集群保持闲置状态,导致计算资源浪费和成本增加。
此外,Zalando认识到需要高效地将数据加载和卸载到及从S3,因为他们当前的技术只允许高效导出CSV,而Parquet导出则缓慢且资源密集。
Zalando还发现现有架构缺乏面向未来的准备,没有在线查询编辑器、天才助手、会话限制为100、缺乏工作负载隔离(单个分析师的重查询可能会拖垮关键报告)以及水平扩展能力受限。
为了解决这些挑战,Zalando与包括亚马逊在内的供应商接洽,并进行了多次概念验证,其中一次涉及Amazon Redshift并取得了令人鼓舞的结果。
Zalando的方法是通过设置两个实例(生产者实例和消费者实例)通过数据共享相连来分离数据生产者和数据消费者。使用PB米进行性能测试显示,这种多实例架构提供了显著的灵活性,轻重查询测试表明Amazon Redshift比他们当前的集群快得多。
结果令人印象深刻:16%的查询比之前快20倍以上,40%快2倍以上,只有8%比之前的系统慢。Zalando估计周一早上的负载总执行时间将下降3倍,这是一个重大改进。此外,Amazon Redshift在轻量级查询方面表现出色,为仪表板和报告提供了快速反馈。
在亚马逊云科技专业服务和专家的支持下,Zalando决定采用Amazon Redshift。他们的目标架构是通过集群或实例隔离用例,并通过数据共享扩展用例和集群。数据加载API将用于从多个分布式S3存储桶将数据加载到生产者集群。
数据加载API抽象将允许用户指定S3数据集和目标表,而Zalando将在幕后处理细节,持续受益于新功能和公告,如用于摄取的Iceberg REST API。
在消费者端,实例将专门用于每个用例,满足不同BI工具、分析师和临时报告的需求。Zalando可以轻松扩展更多消费者,因为它们将通过数据共享连接,而不会产生性能损失。此外,Zalando计划尽可能利用Redshift Serverless以实现所需的价格/性能比。
迁移过程分为三个阶段。在第一阶段,Zalando使用名为ChainShop的工具将表现层同步到新的Redshift集群,该工具基于配置生成Airflow DAG。采用基于时间戳、列、分区或全量加载(针对较小表)的变更数据捕获进行复制。这种方法允许Zalando同时并行迁移数据生产者和数据消费者,从而获得显著的速度优势。
在第二阶段,Zalando开始将第一批应用程序和用户迁移到新系统,因为旧系统和新系统之间的表现层是一致的。建立了数据加载API,使第一批数据生产者能够使用新方法将数据加载到Redshift。顾问与各个团队合作,迁移消费者和生产者。
在第三阶段,一旦所有应用程序和用户都迁移完毕,Zalando将停用ChainShop和旧系统。
Sebastian Harold分享了迁移过程中的一些经验教训。超过5,000个SQL查询需要迁移或翻译,其中80%是简单的,可以使用LLM或其他工具自动翻译。但是,剩下的20%包含存储过程和复杂逻辑,需要数月时间才能翻译,这突显了在迁移期间考虑查询复杂性的重要性。
Zalando发现Amazon Redshift Serverless是一个出色的默认选择,而只有在需要精细的工作负载管理的特定情况下才会使用预配置集群。将delta格式数据集加载到Redshift需要一些变通方法,但数据加载API抽象将在引入新功能时解决这个问题。
Redshift提供在线查询编辑器的可用性受到了欢迎,Zalando渴望看到新的SageMaker统一工作室的采用,以获得增强的用户体验。
一个缺点是数据共享不会影响生产者集群上的自动优化,需要在亚马逊云科技的协助下进行手动调优。
尽管迁移仍在进行中,但Zalando已经看到76%的查询在Redshift上运行更快,每天早上报告可用性提高了一个多小时,每月成本降低,最终数字有待确定。从运营角度来看,Zalando通过根据需要轻松扩展和缩减集群,更好地应对不同的负载情况,这一点从迁移后MicroStrategy作业队列的快速下降可以看出。
展望未来,Zalando计划使用Amazon Lake Formation来集中管理集群间的数据访问,通过数据共享(利用可写数据共享预览版)将现有Redshift集群连接到他们的中央基础设施,在2025年将所有预配置集群转换为无服务器环境,并将Redshift作为内部服务提供,具有身份验证、数据访问、数据共享、中央平台连接、优化和数据操作的标准。
接下来,来自ADP的Ravi Tari Setti分享了他们的Redshift迁移之旅。ADP是人力资本管理解决方案的全球领导者,在140个国家为超过100万客户提供服务,为美国每六个人中就有一个(约2,000万员工)以及全球4,000万员工处理工资。
Ravi Tari Setti是ADP分析应用产品工程副总裁。ADP分析应用(也称为Data Cloud)是ADP的HCM客户的人力分析产品,有超过5万客户使用该产品。主要用户是人力资源、工资、福利从业人员和经理。
该应用程序通过数百个指标、关键绩效指标和故事板,以易于理解的分析形式为客户数据提供洞见,并以问答格式呈现。它回答了有关离职成本、加班、薪酬公平、多元化等主题的问题,使用户能够识别出离职率较高的地点或部门的趋势。
最初为几百个客户提供服务,多年来ADP分析快速增长,随着数据的增长,出现了可扩展性和性能挑战。当工作负载降级到无法满足SLA时,添加更多数据库或升级都是一个漫长且昂贵的过程。此外,在新地区销售该产品需要在新的数据中心构建新的环境并部署应用程序,这是一项重大工作。
为了解决这些问题,ADP决定将其数据仓库和整个应用程序迁移到云端,并评估了包括Amazon Redshift在内的三大数据仓库产品。虽然ADP对数据仓库有许多要求,但三个方面尤为突出:可扩展性、性能和多租户。
经过详细评估,ADP发现这三种产品都无法完全满足他们的期望。但Amazon Redshift最接近满足他们的可扩展性期望,而Redshift团队和解决方案架构师向ADP保证,他们可以解决性能和多租户的要求。因此,ADP决定继续采用Amazon Redshift。
云迁移也为ADP提供了简化和精简架构的机会,同时为客户引入新功能。左侧的架构显示OLTP系统将数据复制到S3,ETL管道将数据转换为星型模式并加载到Redshift,右侧则是分析应用程序等消费者。
值得注意的是,过去在内部数据中心,ETL管道需要在夜间运行10到12个小时,这意味着客户只能访问前一天的数据。在云端,ADP可以在一小时内运行ETL,实现全天多次运行,为客户提供新鲜数据,解决了数据新鲜度问题。
为了实现95%分位数3秒和平均响应时间在秒级以下的苛刻SLA,ADP实施了多项优化。在高峰时段,数千名客户使用该产品,每小时产生近50万个查询,导致高并发、低延迟的工作负载。工作负载在全天会有波动,高峰负载是非高峰时的三倍。尽管如此,ADP仍能在全天保持秒级响应时间。
集群配置在性能和可扩展性方面发挥了重要作用。ADP使用了带SSD存储的RA3节点,允许独立扩展存储和计算。系统还采用了并发扩展,根据高峰负载自动调整计算资源,最多使用10个并发集群,达到上限。
最初在性能测试中,平均响应时间在5到10秒之间,远远超出ADP的目标。为解决这个问题,ADP构建了一个自动化程序,在测试环境中生成生产级的工作负载。首先,他们从内部应用程序服务器挖掘API日志,并构建了一个重放工具来调用这些API。其次,他们使用Redshift团队提供的简单重放工具来记录和重放数据库级别的工作负载。这两种工具的组合使ADP能够在测试环境中创建生产级工作负载,从而进行多次调优、测试和部署迭代。
一项重大优化是查询编译。ADP的应用程序会生成许多短查询,用于客户根据多个维度对数据进行切割和分析。这些短查询会产生数秒的首次运行编译成本,影响应用程序的响应能力。Redshift团队与ADP合作,提供了增强功能,允许跳过这些短查询的某些部分,从而减少首次运行编译成本。所有部分仍会在后台进行编译,确保后续运行的最佳执行。这些增强帮助ADP更接近其SLA目标。
SQL调优是另一个重点领域。从基于行的数据仓库迁移到Redshift时,一些SQL模式的性能不佳。Redshift团队识别了这些模式,并帮助ADP重写SQL。此外,对于在星型模式上运行不佳的报告,ADP对一些高报告流量的表进行了反规范化处理。
为防止全天性能下降,ADP采取了两项措施。首先,由于他们每天多次运行ETL,导致大量更新和删除操作影响Redshift中的数据仓库,因此他们多次运行Vacuum,以回收空间并防止删除操作导致的性能下降。其次,ADP使用查询监控规则(QMR)来识别和终止消耗大量集群资源、导致其他查询资源匮乏的低效“热”查询。
这些技术的组合帮助ADP实现了他们提出的苛刻SLA。
ADP与Redshift团队的合作范围广泛,涵盖设计、架构、性能调优、低级安全性和成本优化。
作为拥有数千名客户的SaaS产品,ADP的另一个关键需求是多租户。ADP需要在一个数据仓库中存储多个客户的数据,同时确保每个客户只能看到自己的数据。但是,批处理的ETL作业应该能够同时处理多个客户的数据。
为解决这个问题,ADP探索了两种解决方案:桥接模型和池模型。每个客户创建一个集群的桥接模型缺乏可扩展性。池模型允许在同一数据仓库中存储多个客户的数据,同时使用访问控制限制为每个客户创建虚拟边界。
ADP使用行级安全性(RLS)和会话上下文变量实现了这一点。他们在表上启用了RLS,并使用客户ID谓词构建了RLS策略。在运行时,当客户登录时,会话上下文变量会设置为客户值。随后,该客户执行的任何查询都会附加谓词,确保他们只能看到自己的数据。这种方法使ADP免受由于开发人员错误而导致的昂贵安全事件。
对于ETL作业,RLS会被基于角色的访问权限绕过。从软件工程的角度来看,实现这一解决方案对于应用程序和数据仓库来说相对简单。
除了可扩展性、性能、多租户和数据新鲜度之外,ADP从迁移中还获得了其他一些好处。他们将数据库数量从数百个减少到仅五个Redshift集群。支持团队可以花更多时间解决真正的客户问题,而不是排查失败的工作负载。从成本角度来看,ADP通过将所有客户迁移到云端并关闭内部基础设施,节省了约30%的成本。他们还在迁移阶段利用了迁移加速计划(MAP)的积分,当时他们同时拥有内部和云基础设施。设置新环境变得更加容易,ADP只需在几天内就可以在欧洲启动一个Redshift集群和整个应用程序设置。
然而,迁移之旅并非一帆风顺。将5万名客户的数据迁移到云端需要详细的规划和执行。ADP根据风险、使用模式和配置文件对客户进行分组,并分批次迁移。
数据质量至关重要。在迁移客户之前,ADP必须确保数据仓库中数据的准确性。例如,数据仓库不强制执行完整性约束,因此可能存在重复数据。ADP构建了自动化工具和流程,在迁移客户之前识别和修复数据准确性问题。
合理规划基础设施以优化成本也很重要。ADP遵循了从最小节点类型开始,然后逐步增加直到达到所需性能水平的最佳实践。
培训团队掌握云和Redshift技能,尤其是性能调优、架构最佳实践和在云中管理应用程序,这一点至关重要。ADP还发现,并发扩展导致每个并发集群都构建自己的缓存,从而导致前几个查询出现冷启动。
展望未来,ADP计划进一步优化其云解决方案。他们计划使用CDC(变更数据捕获)从Aurora Postgres复制数据到Redshift,并探索Redshift Serverless以简化管理并进一步优化成本。ADP还在考虑跨区域复制,以实现灾难恢复。
Raza Hafiz在会议结束时感谢观众的到场,并表示希望Ravi和Sebastian分享的真实世界见解对于那些刚开始或正在规划数据仓库现代化之旅的人有所帮助。
对于刚开始或正在规划数据仓库的客户,Raza强调了可用的资源,包括技能培训以获取构建现代数据仓库所需的技能、详细的概念验证以获得Amazon Redshift的实践经验,以及为客户提供积分以启动Amazon Redshift迁移之旅的迁移加速计划(MAP)。
此外,Raza提到MAP计划可以协助评估、构建未来状态架构,并通过专业服务或可信合作伙伴帮助数据仓库迁移。他分享了自己作为前专业服务成员的经历,曾帮助多个客户使用Amazon Redshift迁移或现代化他们的数据仓库。
Raza提供了一些资源,可以了解更多客户成功案例、最新Amazon Redshift功能或开始使用Amazon Redshift。他鼓励观众联系他们的账户团队进行10到20分钟的演示,或与他们的专家解决方案架构师联系,只需几次点击即可动手使用Amazon Redshift。对于那些考虑数据仓库现代化或迁移的人,Raza分享了一些可以帮助启动该过程的资源链接。
Raza强调了re:Invent大会上即将举行的精彩会议,并感谢观众坚持到下午6点30分,并花时间聆听Ravi和Sebastian分享了他们与Amazon Redshift的现代化和迁移之旅的激动人心的故事。他鼓励观众从这些旅程中获取灵感,开始自己的迁移和现代化过程,并请他们填写会议调查。
总之,本次会议全面概述了Amazon Redshift的功能、创新和真实世界用例,以及Zalando和ADP的详细迁移之旅,强调了使用Amazon Redshift现代化数据仓库的好处、挑战和最佳实践。
下面是一些演讲现场的精彩瞬间:
快速服务层提供5000个表和视图,用于分析、机器学习和特殊分析,每周为超过3000人提供仪表板和报告,内部存储容量达300TB。
演讲者强调了多次运行ETL、清理以及使用查询监控规则等技术,以保持Amazon Redshift数据仓库的最佳性能。
解释了如何使用行级安全性和会话上下文变量来确保数据隐私并防止数据仓库中的安全事件。
Amazon Redshift实现了显著的成本节约,减少了数据库占用空间,并简化了环境设置,实现了无缝迁移到云端。
了解Amazon Redshift提供的资源和计划,帮助您入门或迁移数据仓库,包括技能培训、概念验证、迁移加速计划和专业服务。
了解Amazon Redshift如何通过客户成功案例、最新功能和亚马逊云科技专家的实践演示,彻底革新您的数据仓库。
总结
在这场精彩的会议中,亚马逊Redshift高级产品经理Raza Hafiz全面概述了亚马逊云科技分析和亚马逊Redshift的功能。他强调了数据共享、零ETL、AutoCopy和AI驱动的扩展等关键创新,这些创新使客户能够现代化数据仓库并释放业务价值。Raza展示了来自Hilton、EchoStar和一个生成式AI聊天机器人的真实用例,展示了亚马逊Redshift如何支持不同的工作负载。
来自Zalando的Sebastian Harold随后分享了他们将快速服务层迁移到亚马逊Redshift的历程。通过利用具有数据共享功能的多实例架构,Zalando实现了显著的性能提升,76%的查询在Redshift上运行速度更快。迁移策略包括同步数据、分阶段迁移应用程序和用户,以及设置数据加载API,从而实现了成本节约和运营效率。
来自ADP的Ravi Tari Setti介绍了他们将ADP Analytics(一种人力分析产品)迁移到亚马逊Redshift的过程。为解决可扩展性、性能和多租户挑战,ADP利用了Redshift的并发扩展、查询编译优化和行级安全性等功能。他们与Redshift团队的合作使他们能够实现亚秒级响应时间,减少基础设施占用空间,并实现30%的成本节约。
会议最后,Raza强调了可用于协助客户实现数据仓库现代化和迁移的资源和计划,并强调了实践经验和专业服务支持的价值。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。