利用生成式 AI 处理数据

利用生成式 AI 处理数据

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Bedrock, Custom Data Differentiation, Existing Data Architecture, Generative Ai Auditing, Data Preparation Techniques, Responsible Ai Automation]

导读

如何利用生成式 AI 将数据湖等现有数据架构转化为业务优势?在本讲座中,我们将探讨全球数据组织的领导者最关心的问题,即如何才能最有效地将专有数据集用于独特的差异化生成式 AI 解决方案。从拥有生成式 AI 生产应用程序的亚马逊云科技客户了解如何通过相似检索增强生成 (RAG) 等技术将数据纳入预训练基础模型和自定义。参加本讲座,了解使用生成式 AI 应用程序的三个关键数据考虑因素,以及亚马逊云科技如何利用向下兼容工作法,从客户出发帮助解决这些挑战。

演讲精华

以下是小编为您整理的本次演讲的精华。

Milon Thompson Bukovec是亚马逊云科技的一位技术副总裁,他在演讲开始时强调了生成式人工智能(generative AI)对现代企业产生的变革性影响。他表示,每个当代企业都是一个数据驱动型企业,他花费了大量时间与客户探讨如何利用数据在云端推动数字化转型。然而,现在的对话已经转向如何将企业的专有数据与生成式人工智能相结合。

Bukovec解释说,生成式人工智能是一种基于底层模型所学习的模式和数据创建新内容(如图像、文本、音频或视频)的人工智能形式,它有可能彻底改变企业的运营方式。为了有效利用这种变革性能力,组织必须理解其数据在生成式人工智能中的作用,这是他讨论的重点——如何使用企业的业务数据定制生成式人工智能应用程序和人工智能系统。

Bukovec继而阐述了生成式人工智能的三大核心数据计划,这些计划跨越了行业和地理位置。他强调,如果组织内从事数据工作的人员没有解决这三个计划,他们应该立即着手,因为这对于企业适应生成式人工智能至关重要。

在讨论过程中,Bukovec旨在帮助观众将这三个关键数据计划与本次活动中最重要的数据公告联系起来。他的目标不仅是分享全球各地的数据组织为生成式人工智能所做的工作,还要阐明他们如何利用亚马逊云科技来发挥数据的作用。

Bukovec指出,数据的增长速度令人难以置信,这得益于消费者活动、传感器、商业分析以及许多其他驱动因素。这种数据增长正在推动生成式人工智能的飞轮效应。基础模型(FMs)是在来自Common Crawl等来源的海量数据集上训练的,Common Crawl是一个开放的存储库,包含来自互联网的数百万亿字节网页数据。

企业(如观众所在的公司)正在利用较小的私有企业数据集对FM响应进行进一步定制,创建了Bukovec所称的新的中间数据集。他承诺在演讲中会深入探讨这一主题。这些定制模型将进一步推动更多生成式人工智能应用程序,而这些应用程序通过客户互动又将产生更多数据,从而推动这一数据飞轮。

Bukovec随后讨论了推动这一飞轮的数据。IDC预测了每年数据产生量,预计未来五年数据将增长22%,全球将积累2.29亿亿字节的数据。这些数据将包括结构化和非结构化数据,其中绝大部分是非结构化数据,如视频、PDF文件、音频文本文件。未来几年,非结构化数据将占据90%的数据增长。

Bukovec接着阐述了定制模型的第三种方式,即持续或继续预训练。在这种方法中,企业从FM提供商停止的地方继续,利用存储在企业内部的更大、非结构化和未标记的数据集,如存储在Amazon S3上的数据湖中的数千个文本文档。他提到,目前Bedrock支持使用Amazon Titan模型进行预训练。

Bukovec指出,许多亚马逊云科技客户将采用多种技术和多个FM。他们将直接使用FM、对其进行微调、添加上下文的RAG(检索增强生成)功能,有时还会对模型执行持续预训练。Bukovec观察到,大规模客户通常拥有一系列或一组模型来驱动其人工智能系统。

Bukovec随后介绍了Alexandra Costin,她是Adobe Firefly和Sensei的副总裁,这些产品为数千名创作者提供了Adobe产品中的生成式人工智能功能,她是讨论如何大规模利用生成式人工智能的理想人选。

Costin表示很高兴能够与会,她负责推动Adobe的生成式议程。她旨在讨论Adobe如何利用一些亚马逊云科技功能,以及他们如何处理数据,分享他们的经验。

Costin解释说,Adobe已经为客户服务了四十年,并帮助他们度过了数字摄影、互联网和社交时代等多次技术颠覆。然而,在过去一年中,他们意识到一个新时代正在到来——人工智能时代。对Adobe来说,这是一个关键时刻,他们决定提前投资,开始将他们的产品线转变为人工智能驱动的产品。

Adobe咨询了所有领域的客户,包括消费者、小型企业、教育界的学生、创意专业用户和企业。他们询问Adobe应该如何以适当的方式为他们引入生成式人工智能。他们的客户提出了具体要求,因为他们在创作和编辑内容方面非常挑剔。

客户希望能够控制内容,实现他们的愿景,创作和讲述他们想要的故事。他们强调了在Adobe产品线中进行集成的重要性,需要将这些功能纳入他们使用的产品中,如Photoshop。此外,客户希望进行定制,使他们能够创建符合品牌的内容,并大规模生成内容变体。最重要的是,他们向Adobe发出信号,需要创建可用于商业用途的安全内容,这意味着Adobe必须深思熟虑他们用于训练模型的数据。

这些反馈指导Adobe在2023年创建了一系列用于图像生成、矢量插图生成和设计生成的模型。Costin随后播放了一段视频,展示了Adobe在2023年推出的一些功能。

视频播放结束后,Costin对Adobe的成就表示自豪,并将这些功能在客户中的成功归功于在正确的数据上训练模型并提供所需功能。例如,将Firefly模型集成到Photoshop中的Journey to Fill功能是Photoshop历史上使用率最高的功能,使用率是任何其他功能的10倍。全年共生成了40亿张图像。

Costin重申了Adobe训练这些模型所使用的数据的重要性,正如客户所强调的那样。然后她阐述了Adobe的方法。

Adobe拥有Adobe Stock市场,这是一个为客户提供数亿张图像、插图和视频的平台,有贡献者参与这个市场。Adobe决定将其作为他们希望用于训练资产的基础数据集,这些Stock图像存储在亚马逊云科技中。

然而,Adobe还决定使用多种嵌入和增强来丰富这些数据,以提高训练这些模型的质量。这个过程涉及多个模型,包括用于增强训练数据的模型和参与生成过程的模型。

在考虑训练模型的整个过程时,Adobe从Adobe Stock的数亿资产开始。这些资产已经由人工审核员和人工智能进行了策展和审核,以确保它们不包含商标、知识产权或可识别的角色。这种过滤确保Adobe的模型无法生成特定品牌、标志或可识别的角色。

Adobe采用所有这些数据,然后使用各种大型语言模型(LLM)和其他分类器对其进行增强。他们创建这些预计算的嵌入,有助于提高数据质量并加快训练速度。拥有这些预计算的嵌入可以加快训练速度,因为在大规模分布式训练会话期间无需重新计算它们。

Adobe加载数据,这是整个方程式中的一个关键部分,以保持GPU的占用。他们将数据存储在Amazon S3、Amazon FSx for Lustre和Amazon FSx中,并持续监控和与存储在Adobe Stock中的数据同步,以确保模型训练的线性和可追溯性,以及使用了哪些数据。

Adobe还采用了一种称为人工反馈强化学习(RLHF)的过程,他们从应用程序中收集喜欢、不喜欢和下载数据,并将其反馈到训练数据中,以教导模型生成客户会欣赏的资产。

从宏观层面来看,当Adobe在2022年决定开始这一旅程时,他们创建了一个团队,负责将数据集视为一种产品。这个数据团队的唯一职责是获取数据、准备训练数据、以各种方式压缩数据、计算嵌入,并与数百名Adobe研究人员和应用研究人员共享,让他们专注于训练模型,同时确保他们训练的数据质量很高。

Adobe处理数百万亿字节的原始数据和数百万亿字节的嵌入。当为新的模态(如插图)进行微调时,他们会添加更多数百万亿字节的矢量和视频,从而增加他们必须处理的数据量。利用亚马逊云科技的可扩展解决方案,Adobe能够快速行动,而不必担心数据大小。Adobe在其上构建了软件,利用开源工具将数据流式传输到这些训练机器。

Adobe将存储在Amazon S3中的数据打包,利用S3 One Zone,这使他们能够将数据放置在更靠近训练节点的位置,速度更快,同时更加经济高效。他们将数据压缩成分片,并将其流式传输到训练机器,强调投资软件层或利用亚马逊云科技的产品来确保GPU在训练期间保持占用,尤其是对于多模态任务。

虽然Adobe作为一家大型公司决定训练自己的基础模型,认为他们的客户需要他们投资于自己的基础模型,但他们也一直致力于领先于监管。Adobe一直实践负责任的人工智能,并投资于一种称为”内容真实性”的东西,使他们能够提供关于如何训练数据以及文档是否由人工智能生成的透明度。

Adobe正在与不同的政府合作,就改进和监管训练提供建议,以确保世界各地的政府都能对模型的创建和负责任的训练发表意见。此外,Adobe还投资于异构计算,以解决有时需要纳入客户数据以创建更好产品的挑战。Costin对亚马逊Clean Room的宣布表示兴奋,这可能为以一种干净的方式汇集数据资产而不受干扰提供了机会。

在使用互联网数据进行训练时,必须考虑新出现的威胁,如法律变化和数据投毒。有一些新技术,艺术家们正试图通过以新颖的方式标记他们的数据来保护自己的数据,这就需要投资于如何收集、管理和治理数据集,以确保模型的高质量,无论它们是RAG还是微调。

最后,Costin希望Adobe的故事能帮助观众理解,他们是如何通过投资数据成功创建了许多模型,并且还有更多模型在研发中。Adobe认为他们仍处于指数增长阶段,虽然对某些人来说可能已经太晚了,但Costin相信,在生成模型将如何改变行业以及希望为所有知识工作者改善业务方面,最重大的变化尚未到来。

Adobe认为,需要更多的数据、透明度和治理,各地区的法规将会强制执行这一点。Costin鼓励观众重视这一点,并开始投资于自己的数据集、训练和微调模型,以取得成功并拥抱生成人工智能浪潮。

Costin感谢亚马逊云科技团队的合作伙伴关系,承认如果没有他们,Adobe就无法取得成功。然后Bukovec加入了Costin。

Bukovec赞扬了Costin,表示Adobe正在做的事情将改变创意世界,影响将持续数十年,观众也从中获得了他们如何大规模实现这一目标的感受。

Bukovec随后分享了与生成人工智能相关的三大核心数据计划,无论行业、用例或地理位置如何。第一是使用定制数据来区分人工智能系统,第二是使现有数据架构与生成人工智能协同工作,第三是成为生成人工智能应用程序的最佳审计员。

Bukovec指出,正如Costin的演讲所示,Adobe正在解决这三个计划。

Bukovec首先讨论了第一个计划:使用定制数据来区分。他解释说,在训练基础模型时,通常会使用大量数据。但是,当通过RAG、微调或继续预训练来定制基础模型的使用时,会使用更小的数据集,包括专门的内容和语气风格。

这意味着要从企业的数据库中识别和准备最相关的数据集,以确保最高质量。这是数据从业者转向生成人工智能时面临的第一个挑战。大多数企业拥有大量数据,对于RAG,必须是最相关的数据。对于微调,必须是正确的数据示例,并且标记和准备正确。对于继续预训练,必须是大型高质量的非结构化数据集。

Bukovec强调,在人工智能世界中,通常由数据科学家执行数据准备工作,但越来越多的情况涉及客户使用大型语言模型和亚马逊SageMaker等工具来处理数据分类、标记和其他数据准备任务。通常,仍然有人在循环中验证数据,但数据准备的繁重工作由大型语言模型本身或托管的亚马逊云科技工具(如SageMaker)完成。

一旦组织拥有了他们希望用于定制人工智能系统的高质量数据集,他们就有几种选择来连接数据与模型。根据Bukovec的说法,最简单的方式是使用亚马逊Q等亚马逊云科技人工智能应用程序连接数据,它有43个本地连接器连接数据源,允许用户将其指向他们的数据(位于数据边界内),然后开始使用。

Bedrock也使连接各种企业数据源变得更加容易。几个月前,亚马逊云科技在Bedrock中预览了一个名为知识库的RAG功能,它可以安全地将大型语言模型与专有数据源(如亚马逊S3中的文档)连接,以补充提示信息,从而使应用程序能够提供更相关、更有上下文和更准确的响应。在此次活动中,亚马逊Bedrock知识库已经正式推出,并提供了一个API,可执行整个RAG工作流程,从获取必要的数据来增强提示,到将提示发送给大型语言模型并返回响应。这使得与亚马逊S3、API、数据库等连接变得非常容易。

由于亚马逊云科技认识到开发人员希望有选择权,因此知识库支持不同的向量引擎,包括亚马逊OpenSearch Service、Amazon Aurora(即将推出)以及来自Pinecone、Redis、Centerprise Cloud和MongoDB(也即将推出)的引擎。

对于数据科学家或分析师来说,另一个利用大型语言模型进行业务分析的绝佳选择是SageMaker Canvas。Canvas提供了点击式工具和低代码扩展,允许数据科学家和业务分析师(他们可能不是专业的ML从业者)使用由支持生成人工智能应用程序的基础模型所使用的数据集。通过Canvas的无代码界面,客户可以上传数据集、选择一个大型语言模型,Canvas将自动开始帮助他们构建自定义模型。

在讨论了如何创建和使用定制数据集之后,Bukovec阐述了每个数据从业者都需要考虑的第二个数据计划:利用和扩展现有数据架构,并与新的生成人工智能应用程序协同工作。他表示,客户不希望为本质上是一种新的应用程序类型创建新的数据架构。相反,他们希望利用已经为其他业务应用程序存储和使用数据的现有系统,并且他们的生成人工智能应用程序应遵循企业的数据访问、治理和合规规则。这些生成人工智能应用程序应被视为建立在现有数据基础之上的新应用程序类型。

这意味着要插入现有的数据源,如亚马逊S3数据湖,并利用组织数据架构中已经使用的其他熟悉的数据构建块。

Bukovec之前曾讨论过保持向量数据与最新数据同步的重要性,以确保使用RAG时能够快速、准确和相关地响应。在亚马逊云科技中,客户希望使用他们的数据存储来存储嵌入。他们可以使用亚马逊OpenSearch,这是一个很好的选择,适用于涉及搜索的用例,因为它通过在单个查询中结合向量和全文搜索提供了语义搜索。如果客户使用亚马逊RDS、Amazon Aurora或亚马逊RDS PostgreSQL,他们可以使用PG向量扩展作为向量存储,如果他们已经在使用这些关系数据库并希望在查询中将向量数据与传统表数据连接,这是一个很好的选择。

另一个选择是Amazon Kendra,这是一个端到端的托管服务,可自动执行从20多个源系统的摄取连接器到生成向量嵌入的整个过程。就在活动前几天,亚马逊云科技在其托管图形数据库服务亚马逊Neptune中引入了向量功能,并在其完全持久化的内存Redis兼容数据存储亚马逊MemoryDB中增加了向量支持。

如果客户更喜欢其他向量数据库提供商(如Pinecone),他们可以直接从亚马逊Bedrock中选择。亚马逊云科技的目标是为客户提供选择,让他们使用自己喜欢的技术,在组织已经拥有技能的地方,并将其扩展以包括向量作为新人工智能系统的一部分。

在构建现有架构时,客户还可以利用和扩展已经存在的数据管道。许多亚马逊云科技客户使用亚马逊MSK(亚马逊托管的Apache Kafka流)、亚马逊托管的Apache Flink和亚马逊Kinesis等流技术进行实时数据准备(用于传统的ML/AI)。他们可以扩展这些工作流程来捕获数据的变化,并实时更新他们的向量存储。客户可以使用亚马逊Kinesis Data Firehose将集成数据流更新到亚马逊S3中的微调数据集,并扩展现有工作流程以与新的人工智能系统协同工作。

基本上,如果客户的数据架构已经使用亚马逊云科技服务构建,他们就已经走了大半路,可以将其扩展到与生成人工智能协同工作。除了专门为生成人工智能而构建的托管服务亚马逊Bedrock之外,亚马逊云科技还将继续为所有服务添加新功能,确保现有数据架构可以轻松过渡到生成人工智能应用程序。

有时,这意味着将生成人工智能功能纳入亚马逊云科技数据服务中,以更好地管理现有数据架构。例如,亚马逊Data Zone宣布支持使用生成人工智能自动生成描述,这是一种由大型语言模型驱动的功能,允许客户轻松丰富他们的业务目录,自动为数据集创建全面的业务数据描述和上下文。

在其他情况下,从现有架构桥接生成式AI包括了诸如Amazon Glue引入的新功能,这些功能可以通过Glue Data Quality Insights简化训练和推理的数据集质量改进。该功能通过使用ML算法分析数据统计信息,自动检测数据集中的异常,识别隐藏的数据质量问题和异常数据模式。

另一个例子是Bukovec提供的最近宣布了CloudWatch Enhanced Container Insights,用于监控Amazon EKS集群。以下是详细的叙述性总结:

另一个例子是Bukovec提供的最近在Kubecon上宣布了CloudWatch Enhanced Container Insights,用于监控Amazon EKS集群。这些指标将有助于任何EKS用户,但对于运行生成式AI工作流(如微调)的用户尤其有用。默认情况下包括GPU利用率等关键指标,但用户还可以访问其他非常有用的指标,如功耗、容器CPU或编码器延迟。这些指标按集群、命名空间、作业或Pod进行聚合,允许用户监控和最大化托管在EKS上的工作流的正常运行时间。

Bukovec表示,如果客户查看他们的数据架构,他们会发现亚马逊云科技创新的快速步伐在哪些地方帮助了生成式AI应用程序的构建者。他以Amazon S3为例,指出目前有超过70万个数据湖,客户拥有TB或EB级的数据,当涉及为企业专门化大型语言模型(LLM)时,Amazon S3就是互联网的终点。

存储在Amazon S3中的数据本质上是高质量的,因为它已经被用于业务运营,如分析和欺诈检测。因此,从客户的数据湖中获取高质量数据并用于定制他们的AI系统只是一小步。

在使用Amazon S3中的企业数据时,客户通常拥有优质的数据源,可用于生成式AI。随着亚马逊云科技扩展Amazon S3功能,例如最近宣布的S3 Access Grants和S3 One Zone,生成式AI从业者也将从这些创新中获益。

Bukovec提供了一个具体示例:本周早些时候,Amazon S3宣布了S3 Access Grants,它允许客户对S3的前缀级别应用细粒度控制。该功能有助于使用共享数据集进行RAG、微调和持续预训练的生成式AI开发人员,允许他们对这些共享数据集维护严格的、经过记录的访问控制,甚至提供与第三方身份提供商的集成。

Bukovec强调,亚马逊云科技正在为其基础服务(如Amazon S3)构建的一切都将有助于任何应用程序开发人员,但亚马逊云科技还将这些功能扩展到生成式AI工作流中。他提到的细粒度控制对于AI系统至关重要,因为它们通常使用共享数据集。例如,客户可能希望使用相同的准备好的数据集对不同模型进行微调,或者对不同的RAG上下文学习场景使用一组关键文档。

截至该活动,S3 Access Grants提供了一种完全可审计的方式来授予特定访问权限,例如基于时间的权限或只读权限,甚至可以细化到单个前缀。这种共享数据集的概念已经在数据湖中用于业务分析、欺诈检测、个性化广告等,也将应用于生成式AI应用程序。

Bukovec接着讨论了数据湖,他表示Pinterest是多年前最早采用数据湖架构的公司之一,他们已经在大规模部署了用于数据湖的生成式AI。他邀请了Pinterest数据工程副总裁Dave Burgess分享Pinterest如何利用他们的数据进行生成式AI。

Burgess解释说,Pinterest是一个视觉灵感平台,人们可以在这里搜索、保存和购买来自世界各地的最佳创意。Pinterest拥有4.82亿月活跃用户,每周有15亿张图片(Pin)被保存。Pinterest在亚马逊云科技云上创建了一种敏捷的工程文化,允许他们快速开发和部署软件,并在大规模生产中运行。

Pinterest已经在亚马逊云科技上运行了13年,自创立以来就一直如此,他们运行了数千个实验来”赢得或学习的力量”。他们可以在一天内训练和部署ML模型到生产环境,并拥有数十种ML用例,这些用例每秒执行数亿次ML推理。这产生了高达每秒8000万个事件,Pinterest会记录、处理并从中获取见解,并基于此进行ML训练。因此,Pinterest在其数据湖中存储了一个EB的数据,这是Amazon S3上最大的数据湖之一。

Pinterest是亚马逊云科技技术和开源软件的混合体。他们的数据消费者包括工程师、数据科学家、产品经理和高管,培养了一种数据驱动的文化和业务。所有这些用户都在Pinterest的开源Query Book和Superset分析用户界面中创建查询,并通过在Amazon EKS上运行的Presto和Spark开源大数据引擎执行这些查询。

Pinterest根据模式设计、数据质量和文档对他们的数据进行了分层。他们在Data Hub(一个开源数据目录)中存储所有元数据,如模式、字段、指标和定义。他们最高Tier 1数据集的目标是使公司80%的查询可以执行。即使拥有这些功能和基础设施,Pinterest也认为他们可以进一步利用生成式AI来提高分析生产力。

为了解决他们的分析产品痛点,Pinterest确定了如何利用大型语言模型和RAG与他们现有的数据湖来显著提高分析生产力。在任何给定的一天,他们的用户和商业智能团队都有许多需要回答的分析问题,不断努力找到答案。这些问题涉及了要使用哪些数据、字段和指标的定义、数据的质量和可信度,以及如何编写SQL查询。

Pinterest看到了一个机会,通过使用RAG从文本问题自动生成SQL查询来解决这些痛点。他们发现,只要使用正确的表,文本到SQL的生成准确率约为97%。但是,他们需要找到适合SQL查询的正确Tier 1表,这需要表的文本描述。因此,他们使用大型语言模型从表模式生成表的文本描述。

然后,Burgess演示了Query Book中的Text-to-SQL功能,该功能已在生产环境中运行并已开源。用户可以在Query Book中输入问题,它将生成并执行SQL查询。用户还可以编辑SQL,Query Book将验证语法并自动为查询生成标题(如果需要)。

Burgess提供了Pinterest生成式AI元素的一瞥,这些元素是由两名能力出众的工程师在几个月内利用业余时间构建在亚马逊云科技之上的,展示了设置的简易性。

当用户提出问题时,Pinterest首先需要使用Amazon OpenSearch(一个分布式搜索和向量引擎)找到要使用的数据表。OpenSearch包含表模式、描述、层级和示例查询,以推荐最佳表。一旦确定了正确的表,Pinterest就可以为语言模型创建提示并生成SQL。

自动从文本生成SQL的影响导致Pinterest的产品分析师、数据科学家、产品经理和工程师的生产力提高了40%,主要是通过加快数据发现和查询创建时间,自动找到正确的表并执行SQL。

Pinterest一直在使用现成的大型语言模型进行这种用例,最新的模型可以提供97%的准确率,出色的结果。他们还将这些模型用于其他内部开发人员产品用例。大部分差异化在于提供给这些大型模型的提示和数据。Burgess提供了一个可用于从提示生成SQL的示例提示URL。

Burgess感谢了Pinterest工程团队、整个Pinterest公司,以及Bukovec和亚马逊云科技团队的紧密合作。

Bukovec赞扬了Pinterest的成就,注意到他们40%的生产力提升以及拥有一个EB级的惊人数据湖。他强调了生成式AI在Pinterest的工程人员中的大规模使用,以理解所有这些数据。

Pinterest能够如此快速地转向生成式AI,部分原因是他们的现有数据架构是基于Amazon S3进行数据存储。从那里出发,将LLM集成到他们现有的系统只是一小步,这只是众多例子之一,展示了公司如何能够在基于亚马逊云科技服务的情况下快速部署AI系统,这要归功于亚马逊云科技根据客户需求不断创新。

Bukovec接着提供了本次活动中新发布的一些对生成式AI从业者很重要的示例。计算和存储之间的数据路径对于生成式AI工作流来说至关重要,因为在该路径上的速度很重要,可以加快模型训练和推理过程。

为了加速训练工作流,亚马逊云科技优化了计算和存储之间数据路径的许多不同部分。例如,他们显著提高了从Amazon S3检索数据的默认命令行性能,适用于常用的实例类型,如Trinium 1、P4D和P5实例,用于生成式AI应用程序。

自从许多客户使用Amazon EKS来编排他们的分布式训练作业,亚马逊云科技本周推出了一个新的Amazon S3 CSI驱动程序,允许客户直接从Kubernetes通过文件系统接口本地设置和挂载S3存储桶来访问S3对象。对于Amazon EC2或EKS上的Kubernetes,客户应该使用这个驱动程序来获得高聚合吞吐量,而无需更改应用程序代码。

亚马逊云科技还优化了ML/AI工作流中常用框架的性能。由于客户使用Python进行ML/AI训练,亚马逊云科技加速了Amazon Web Services Python SDK对S3访问的性能,自动并入了优化措施,如自动超时、重试、请求并行化等,无需客户编写任何代码。

此外,亚马逊云科技为S3的开源客户端FUSE连接器(称为Amazon S3挂载点)添加了文件缓存,这将通过减少重复数据访问的成本来加快多轮训练作业的速度。

就在上周,亚马逊云科技为开源项目和框架PyTorch推出了一个新的Amazon S3连接器,允许客户自动优化他们使用PyTorch的ML训练工作负载的数据加载和检查点性能。

正如在主题演讲中提到的,Amazon S3推出了一种新的单区域高性能存储类别,称为S3 One Zone Express。它提供了最高性能和最低延迟的云对象存储,具有持续的单位数毫秒延迟,并且Express让客户可以扩展到每分钟数百万次访问请求,请求成本比Amazon S3标准低50%。由于客户的作业将运行得更快,他们可以将总工作负载成本(包括计算和存储)降低60%,相比于Amazon S3标准。S3 One Zone Express比之前最快的存储类别S3标准快10倍。

这些例子说明了亚马逊云科技服务中的创新吞吐量,有助于亚马逊云科技上的生成式AI构建者。

Bukovec随后讨论了第三个数据计划,这是每个行业和地理位置的数据组织都在关注的:成为自己最好的审计员。对于生成式AI,客户应该知道他们在训练、定制、微调、RAG中使用的数据集,以及模型是如何做出决策的。在这个快速发展的领域,组织需要向前看,成为自己最好的审计员,为未来的法规和合规性做好准备。扩大使用生成式AI的唯一方式是通过全自动审计。

如今,组织存储、保护和管理他们的企业数据集。然而,对于生成式AI,还有新的中间数据集,例如用于微调的预处理数据集、嵌入和生成的数据。数据溯源需要扩展到包括组织的AI系统创建和使用的这些中间数据集,例如评估数据集、嵌入、提示工程数据集和用于定制模型(如Amazon Transcribe)的暂存数据集。

对于企业级生成式AI,使用与现有数据架构相同的访问和安全模型来存储这些新的中间数据集,并记录它们在生成式AI工作流中的使用情况至关重要。任何来自生成式AI应用程序的提示响应都需要反映用户对底层数据的权限。

虽然这个基本概念内置于AWSAI服务中,如Amazon Q和Amazon Transcribe在发布时,但它也被纳入了上下文学习和FM定制。对于RAG用例,客户可以依赖现有的用户级权限和嵌入和矢量数据库(如Amazon OpenSearch)中的细粒度访问控制。

亚马逊云科技客户目前使用各种服务(如Amazon CloudTrail、Amazon Data Zone、Amazon CloudWatch和Amazon OpenSearch)进行审计、管理数据使用和监控使用情况。这些服务可以扩展到组织的AI系统。亚马逊云科技在推出其生成式AI功能时就支持了CloudTrail,记录了Amazon Q中的数据源、在Amazon Bedrock中记录了提示和模型决策等。

亚马逊云科技还为敏感数据提供了额外的分层保护,例如CloudWatch的敏感数据保护功能,可以自动检测和屏蔽800多种敏感数据类型,跨任何日志出口路径,防止通过调用日志访问PII数据。

亚马逊云科技深信负责任的AI,通过Bedrock的模型决策可解释性等功能提供了对模型决策的透明度,记录了模型想要采取的中间步骤;以及Amazon Transcribe的参考日志,用于审查与训练数据类似的代码建议。

亚马逊云科技推出了AI服务卡,这是一种负责任的AI文档形式,为客户提供了有关亚马逊云科技服务的预期用例、最佳实践和安全使用信息。本周,亚马逊云科技推出了6张新的AI服务卡,包括Amazon Transcribe的毒性检测。

作为负责任AI的一部分,亚马逊云科技还为Amazon Titan模型和Amazon Transcribe的输出提供了知识产权(IP)赔偿保护。如果客户使用这些生成式AI应用程序或模型并面临知识产权侵权诉讼,亚马逊云科技将帮助为诉讼辩护并承担任何判决或和解费用。

亚马逊云科技正在投资自动化负责任AI的采用,例如Bedrock的防护栏,让客户可以指定他们的生成式AI应用程序应该避免的主题,并自动过滤掉受限类别中的查询和响应,包括自定义微调的FM。

自动化负责任AI的另一种方式是将其构建到FM选择中。Amazon SageMaker Clarify使客户能够根据负责任AI定义来评估和选择他们的FM,在准确性、稳健性和毒性等维度上比较执行相同功能或属于同一系列的模型。

Bukovec强调,组织需要成为自己最好的审计员,为未来的合规性要求做好准备。无论客户是使用Amazon Q等AI应用程序、Amazon Bedrock等托管ML AI服务,还是在应用程序的多个部分使用Amazon CloudTrail等单独服务,亚马逊云科技都会提供帮助。

虽然这只是旅程的开始,但Bukovec指出,这不仅关乎模型如何通过数据学习业务上下文,还关乎个人和组织如何学习生成式AI技术、负责任AI,以及将数据引入AI系统的方式。

在亚马逊,领导力原则”学习并保持好奇心”指出,他们永远不会停止学习,并且总是寻求提高自己,对新的可能性保持好奇,并采取行动去探索它们。这就是大家在生成式AI方面所做的,而亚马逊云科技将与客户一路同行。

总之,Milon Thompson Bukovec的演讲涵盖了数据在生成式AI中的关键作用,以及组织必须关注的三大数据计划:使用定制数据来区分AI系统、使现有数据架构与生成式AI协同工作,并成为生成式AI应用程序的最佳审计员。演讲举例说明了Adobe和Pinterest如何利用他们的数据进行大规模生成式AI,并重点介绍了亚马逊云科技的创新数据服务和负责任AI实践,以支持客户在这一变革性的旅程中。

下面是一些演讲现场的精彩瞬间:

现在,每一家现代企业都是一家数据企业,我们将讨论如何利用自己的数据与生成式人工智能相结合,推动数字化转型。

亚马逊云服务推出了增强型容器洞察功能,为EKS集群提供关键指标监控,如GPU利用率、功耗、容器CPU和编码器延迟,帮助客户最大化生成式AI工作流程的正常运行时间。

Pinterest利用亚马逊云科技技术和开源软件,建立了一个数据驱动的文化和业务,通过Presto、Spark和Amazon EKS执行查询,并使用Data Hub存储元数据,以提高分析生产力。

在任何给定的一天,我们的用户和商业智能团队都有许多不同的分析问题需要解答,他们不断努力试图找到这些问题的答案。

通过使用RAG,我们看到了解决这些痛点的机会,主要方式是从文本问题自动生成SQL查询。

在人工智能生成技术快速发展的时代,每个数据组织都需要成为自己最好的审计员,了解训练数据集、模型决策过程,为即将到来的监管做好准备。

现在,您需要存储、保护和管理企业数据集,以及用于生成式AI的新数据集,包括微调的预处理数据集、嵌入和生成的数据。

总结

在这场引人入胜的演讲中,Milon Thompson Bukovec作为亚马逊云科技技术副总裁,深入探讨了数据在发挥生成式人工智能(Generative AI)变革力量中的关键作用。他强调了三个跨行业和地理位置的关键数据举措:利用定制数据使人工智能系统与众不同,将生成式人工智能整合到现有数据架构中,并成为负责任的人工智能应用程序的自己的审计员。

Bukovec强调了为了通过检索增强生成(RAG)、微调和持续预训练等技术定制基础模型,策划高质量、相关数据集的重要性。他重点介绍了亚马逊云科技服务,如Amazon Q、Bedrock和SageMaker Canvas,这些服务简化了企业数据与生成式人工智能模型的集成。此外,他强调了利用现有数据架构和管道的必要性,展示了亚马逊云科技创新,弥合了传统数据基础设施与生成式人工智能应用程序之间的差距。

此外,Bukovec强调了在快速发展的生成式人工智能领域中,审计和合规性的重要性。他提倡组织成为自己的审计员,仔细跟踪数据来源、模型决策和负责任的人工智能实践。亚马逊云科技服务,如CloudTrail、DataZone和CloudWatch被强调为在生成式人工智能部署中进行审计和治理的重要工具。

Bukovec的演讲得到了来自Adobe的Alexandra Costin和Pinterest的Dave Burgess等行业领导者的见解,他们分享了在利用数据进行生成式人工智能应用程序方面的经验。该演讲以号召行动作为总结,敦促组织在亚马逊云科技作为值得信赖的合作伙伴的情况下,培养持续学习和好奇心的文化,以发挥生成式人工智能的变革潜力。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值