借助Amazon Q实现AI驱动的数据集成和治理
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, SageMaker Unified Studio, Ai-Powered Data Integration, Data Governance, Sagemaker Unified Studio, Generative Ai Assistant, Apache Spark Integration]
导读
探索Amazon Q Developer的人工智能驱动功能如何简化亚马逊云科技服务之间的数据集成,包括Amazon Glue、Amazon SageMaker Catalog、Amazon Redshift、Amazon SageMaker AI等。了解数据工程师和ETL开发人员如何通过Amazon SageMaker Unified Studio中直观的聊天界面,使用自然语言构建复杂作业、排除故障和探索数据。参加本次会议,了解Amazon Q Developer如何提高生产力并加速工作流程,从而改变您处理数据集成的方式。
演讲精华
以下是小编为您整理的本次演讲的精华。
在引人入胜的演讲中,Whippin Mohan通过一系列民意调查来了解观众的角色和专业知识。大约四分之一的与会者认定自己是数据工程师或数据分析师,专注于解读数据,利用统计工具和可视化技术来发现见解。一小部分但同样宝贵的是数据管理员,他们的主要关注点是治理、质量和一致性,充当技术团队和业务用户之间的桥梁,确保组织数据资产的适当管理、维护和合规利用。此外,还有一些与会者是数据科学家或机器学习科学家,致力于开发和优化模型以实现机器学习,通过研究推进组织的技术。值得注意的是,大约三分之一的与会者是应用程序开发人员,专注于构建利用生成式人工智能模型创建动态文本、图像或视频内容的应用程序,将人工智能功能集成到他们的业务中,为最终客户提供价值。
Mohan深入探讨了客户面临的挑战,强调问题不在于缺乏技术资源,而在于无法在海量信息中快速找到所需资源。新成员加入组织时,通常需要熟悉现有数据资产的复杂架构,这可能涉及多个表或列,而这些实体之间的关系可能模糊或定义不清,从而降低用户有效入职的速度。
从治理的角度来看,保护敏感数据免受未经授权的访问,同时确保隐私和维护数据实用性仍然是一个持续的挑战。确保遵守内部和外部法规,持续监控并适应新的合规性要求也是一个重大障碍。
Mohan强调,必须改善传统的构建体验,因为目前开发人员需要花费大量时间编写数千行代码和调试,这一过程阻碍了生产力,并且经常使开发人员陷入重复性任务,如配置基础设施或重构代码。这种缓慢且容易出错的周期最终扼杀了创新,阻碍了开发人员构建创新应用程序的愿景。追溯错误的根源往往需要分析来自日志、流、监控跟踪甚至用户反馈的大量数据,进一步加剧了挑战。
Mohan解释说,Amazon Q Developer是一款人工智能驱动的助手,可以简化复杂的数据任务,如理解架构和查询优化,从而减少开发时间并加快项目交付。它与各种亚马逊云科技服务和工具、数据库无缝集成,并确保在各种云环境中的兼容性和易于部署。Amazon Q Developer可以加快代码编写、调试、测试、优化,甚至升级代码的速度,协助开发人员和IT团队创建和维护安全、可扩展且高度可用的应用程序。
在SageMaker Unified Studio中,Mohan演示了Amazon Q如何帮助用户设置项目和理解数据资产。在一个场景中,用户想了解SageMaker Unified Studio是什么,Q提供了一个简洁的总结。当用户询问域和项目以及如何设置它们时,Q根据最佳可用响应提供了一个快速总结,包括相关文档的指针。
Mohan强调SageMaker Catalogue通过生成式人工智能增强数据发现的能力,自动为数据丰富描述、元数据和业务术语词汇表,使用户更容易从现有资产中找到相关信息。数据消费者和生产者可以利用自然语言和语义搜索来发现最相关的数据集,满足他们的使用案例。
在一个令人信服的演示中,Mohan展示了用户如何通过点击“生成描述”按钮为数据集生成描述。几秒钟内,人工智能的魔力就生成了数据集的摘要,用户可以查看、根据需要编辑,然后接受。Mohan强调,这种功能开箱即用,无需训练。
为了说明Q在数据发现方面的强大功能,Mohan提出了一个场景,新成员Elsa作为数据分析师加入了SageMaker Unified Studio中的一个项目。Elsa想了解可用的数据集,开始分析一个特定的数据集。然而,仅凭原始数据和架构,她很难理解内容。通过调用Q并询问“哪些数据集包含支票账户余额数据?”,Q解释了查询,执行了适当的API调用,并直接在聊天界面中返回了相关数据集。兴奋于结果,Elsa寻求更具体的信息,询问“哪些数据集包含贷款状态信息?”Q扫描了可用的元数据并提供了所需信息,使Elsa能够快速缩小相关数据集的范围。
Mohan揭开了层层面纱,解释说当Elsa要求在业务数据目录中搜索数据集时,她的提示被Q界面消费并动态路由到最合适的后端系统。响应是仅使用与Elsa用户账户相关的权限创建的,确保了安全和安全的数据访问,同时考虑了与她相关的上下文。
转移到SQL查询,Mohan演示了Q如何通过根据自然语言输入提供SQL建议来提高生产力并简化查询编写。在一个场景中,SQL新手Andrew是一名本科实习生,他导航到查询编辑器并看到了他可以访问的表。通过调用Q并询问“向我展示来自贷款表的数据”,Q为Andrew生成了一个SQL查询,他可以直接开始查询而无需进一步努力。
受到初步成功的鼓舞,Andrew希望运行一个更复杂的查询,询问“为所有处于活跃状态的贷款客户,向我展示客户名称和支票账户余额”。这个查询涉及查询三个不同的数据集,Andrew对此知之甚少,并且需要执行连接语句来检索相关列和数据。令人惊讶的是,Andrew所需要做的就是用自然语言提出问题,Q就会为他提供一个包含适当连接条件和语句的SQL查询,他可以直接执行。
意识到Andrew对更多信息的渴望,Mohan演示了Q的多回合功能。当Andrew询问“你能为该查询添加总投资账户余额吗?”时,Q记住了之前的问题并相应地修改了查询,添加了一个左连接以包含所请求的信息。
Mohan强调,Q在SageMaker Unified Studio中生成SQL,简化了工作流程,增强了协作,并确保组织能够安全高效地利用其数据。
接下来,Mohit Saksena登台讨论了Amazon Q在SageMaker Data Processing中为Apache Spark提供的生成式人工智能功能。他首先介绍了SageMaker Data Processing with Apache Spark,它提供了一个统一的体验,由性能优化的Apache Spark运行时驱动Amazon Glue和Amazon EMR。Amazon Glue为任何规模的数据发现、准备和集成提供了无缝体验,而由同一优化的Spark运行时驱动的Amazon EMR允许客户执行PB级数据分析并在EC2、EKS和无服务器模式下运行大数据工作负载。现在,客户可以通过SageMaker Data Processing在Amazon SageMaker Lake House中受益于细粒度访问控制。
Saksena强调了Apache Spark两个主要功能,使其成为当今最受欢迎的数据处理引擎之一:大规模分布式并行执行大数据工作负载,以及灵活的编程接口。在内部,Glue和EMR都通过允许客户并发运行多个数据并行作业来管理Apache Spark应用程序,每个作业被划分为阶段,进一步细分为在Amazon S3或数据仓库中的数据集并发分区上运行的任务。虽然这种并行性和分布式基础设施对于数据工程师和开发人员来说是通过服务API和基础设施管理进行抽象的,但客户经常报告在他们的应用程序执行的不同点以及应用程序生命周期中理解分布式执行的挑战。
Spark的第二个强大功能是它的编程接口,允许用户根据自己的喜好混合使用SQL(一种声明式语言)和Python(一种命令式语言)。Saksena举了一个简单的ETL DAG的例子,用户希望从Snowflake读取数据,应用SQL转换,并将数据写入Amazon Redshift。这个DAG转化为大约25行Spark代码,展示了Apache Spark编程接口的表现力。然而,虽然这种编程语言的混合对开发人员有利,但对于低代码或无代码用户来说可能不太直观。
Spark还允许用户指定大量配置选项,在连接不同源时提供了灵活性,但在迁移应用程序到不同Spark版本时引入了挑战,因为配置及其默认值可能会发生变化,并且可能会引入新的配置。
Spark的第三个能力是延迟评估其操作,在写入数据之前,读取数据、应用转换或写入数据的代码都不会执行。虽然这使Spark的性能非常高,但由于异步执行,即使是经验丰富的Spark开发人员也很难识别发生故障的代码行,从而使故障排查变得具有挑战性。
为了解决这些挑战,Saksena在2024年推出了三项新功能:
- 通过从自然语言提示生成可视化ETL DAG和Spark代码,简化Apache Spark应用程序的构建过程。该功能使用先进的最新模型、Amazon Glue的知识库和新的编译器技术为用户生成可视化DAG和编译Spark代码。仅在2024年,Amazon Q就帮助了全球数万名用户解决了超过10万个与数据集成相关的问题。该功能还支持上下文感知,允许用户表达诸如“创建一个Glue脚本,从S3存储桶X读取文件,将列A重命名为列B,并将其写入Redshift数据库Y”之类的提示,系统会自动将提示中的上下文转移到生成的DAG和Spark代码中。用户还可以通过多轮对话与Amazon Q进行交互,以迭代构建和完善他们的管道。
- 通过提供Spark作业失败的即时根本原因分析和可操作的建议,简化故障排查体验。该功能将平均解决时间从几天缩短到几分钟,解决了诸如内存不足异常和磁盘空间不足等复杂错误,这些错误往往很难诊断。对于常见的问题,如资源设置或配置错误,它可以识别发生错误的代码行。
- 通过使用生成式AI自动化版本升级过程,实现Spark应用程序的现代化和升级。该功能检查Spark代码和配置,识别发生了向后不兼容的更改或配置更改的位置,并消除了手动识别和更新这些更改的工作。它还在测试沙箱环境中验证了更新后的Spark应用程序,然后客户可以审查并将更改应用到生产环境中。
Saksena通过现场示例演示了这些功能,展示了Amazon Q如何从自然语言提示生成Spark代码、通过隔离根本原因和代码行来排查错误,以及在处理配置更改和API更新的同时升级Spark版本。
在一个引人注目的用例中,用户使用一个简单的自然语言提示表达了他们将SageMaker Lake House目录中的“venue”和“events”两个表连接的意图。Amazon Q生成了整个管道,捕获了提示中嵌入的上下文,如表名和列名,作为每个节点的属性。然后,用户可以使用多轮对话添加一个新的过滤器转换,Q会自动使用请求的过滤条件更新管道。当用户想要使用新格式和S3存储桶位置更新S3同步节点时,他们可以与Amazon Q对话,它会更新相应的属性。在幕后,整个DAG的Spark代码都会自动生成,用户可以执行并预览数据输出。
Saksena还演示了如何通过Amazon Glue上的聊天控制台或开发人员的笔记本,以注释的形式表达提示,从而在同一自然语言提示上执行Amazon Q并实现自动代码补全。
在另一个示例中,Saksena展示了Amazon Q如何为Spark作业失败提供即时根本原因分析。当用户在执行从S3存储桶读取数据并应用过滤器转换的作业时遇到错误,他们只需点击“故障排查分析”。Amazon Q识别出根本原因是S3存储桶名称错误,并指出发生错误的代码行,使用户能够快速修复问题并成功重新执行作业。
Saksena接着演示了Amazon Q如何自动化Spark版本升级过程。在示例中,用户希望将应用程序从运行在Spark 2.4.3和Python 3.7上的Amazon Glue 2.0版本升级到运行在Spark 3.3.0和Python 3.10上的Glue 4.0版本 - 对Python和Spark都是主要版本的变更。用户启动了升级分析,指示系统检查代码,在一个S3路径中提供升级摘要,在另一个S3路径中提供升级后的脚本。
在幕后,Amazon Q使用程序分析和生成式AI技术相结合,制定了一个迁移计划。它经历了五次尝试,每次解决升级过程中的一个错误,这些错误源于向后不兼容的API或方法签名更改或配置更改。这个过程发生在测试沙箱环境中,一旦Amazon Q解决了所有错误,它就成功将应用程序升级到了Glue 4.0版本和Spark 3.3.0。
升级摘要列出了应用的所有迁移规则,包括两个SQL配置更改、一个方法数据更改、一个方法计数的方法签名名称更改,以及两个Spark版本之间的十进制类型精度更改。用户可以检查代码差异,以审查升级过程中所做的更改。
Saksena最后强调,这一功能建立在亚马逊云科技上发生的数百万次Spark应用程序升级的基础之上,使用了相同的知识库。在接下来的几个月里,亚马逊云科技将改进这一功能背后的程序分析技术和AI模型,以覆盖更多种类的Spark版本,并将其扩展到Amazon Glue之外的服务。
总之,2024年亚马逊云科技 re:Invent活动展示了由生成式AI驱动的数据集成和治理领域的突破性进展。Amazon Q Developer和SageMaker Unified Studio旨在简化复杂的数据任务、提高生产力、加快项目交付,并自动化数据集成和治理生命周期的各个方面。凭借这些创新解决方案,亚马逊云科技使构建者能够克服挑战,实现更快的创新,并在数据和人工智能领域开启新的可能性。
下面是一些演讲现场的精彩瞬间:
揭开由 Amazon Q Developer 驱动的数据集成和治理之面纱,集成了 SageMaker Unified Studio 和面向 Apache Spark 的生成式 AI 功能。
SageMaker Unified Studio 为各种数据和 AI 服务提供了一致的笔记本和查询编辑器体验,实现了无缝访问各种用例所需的工具和功能。
SageMaker AI 提供了一套全面的工具和基础设施,涵盖了机器学习生命周期的各个阶段,从模型构建和训练到部署和治理,使企业能够快速开发和部署符合其需求和负责任 AI 指导原则的定制 AI 应用程序。
SageMaker Unified Studio 中的 Amazon Q 支持通过自然语言交互完成诸如问答、数据探索和代码编写等任务。
新入职的数据分析师 Elsa 在您发布资产后休假时,难以理解业务数据目录中的原始数据和模式。
Andrew 轻松地利用 Q developer 的 SQL 查询生成和多轮交互功能,获取了有价值的见解,从而无需广泛的 SQL 知识即可简化数据分析流程。
演讲者邀请观众亲眼目睹所讨论技术的现场演示。
总结
在亚马逊云科技的reInvent2024活动上,亚马逊云科技首席产品经理Whippin Mohan发表了一场引人入胜的演讲,展示了Amazon Q Developer这款AI驱动的助手如何简化复杂的数据任务。这款革命性的解决方案与亚马逊云科技服务、数据库和云环境无缝集成,加速项目交付,让开发人员能够前所未有地轻松创建安全、可扩展且高可用的应用程序。
Mohan的演讲深入探讨了构建者所面临的挑战,强调了寻找相关技术资源、新团队成员入职、确保数据隐私和合规性以及克服传统开发过程耗时且容易出错的困难。Amazon Q Developer作为一款颠覆性的产品,赋予开发人员更快的代码编写、调试、测试、优化和升级能力,从而彻底改变了游戏规则。
将Amazon Q Developer集成到SageMaker Unified Studio(统一的数据和AI平台)进一步增强了其潜力。Mohan演示了Q Developer如何简化整个开发生命周期,从项目规划和数据发现到SQL查询和代码编写。通过自然语言交互和上下文理解,Q Developer让构建者能够轻松完成复杂任务,提高生产力并促进创新。
随后,亚马逊云科技高级经理Mohit Saksena登台,为SageMaker Data Processing中的Apache Spark揭幕了令人兴奋的新功能。这些新功能包括自然语言数据集成、Spark作业失败的即时根本原因分析以及Spark应用程序的自动生命周期管理。凭借生成式AI的力量,开发人员现在可以用简单的语言表达他们的意图,系统将生成可视化DAG、PySpark代码,并处理上下文感知,实现无缝且迭代的开发体验。
总之,Amazon Q Developer与SageMaker Unified Studio的集成代表了数据集成、治理和应用程序开发领域的一次范式转变。通过利用AI的力量,亚马逊云科技让构建者能够克服复杂的挑战、简化工作流程,开启创新的新领域,为技术与人类智慧无缝融合的未来铺平道路。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。