面向中小企业的生产环境Generative AI架构模式
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Amazon Bedrock, Generative Ai Architecture, Production Environment, Small Medium Businesses, Ai Pioneers, Ai Adopters]
导读
2024年是将生成式AI应用投入生产的一年。启动生成式AI应用需要仔细考虑模型选择和评估、微调与Rao、安全性、隐私、幻觉控制以及成本管理等因素。在本次讨论中,我们将深入探讨一些常见的架构模式、安全防护措施、治理方法和优化技巧。这些方法已经被用来支持数百家亚马逊云科技中小企业客户在全球范围内将其生成式AI工作负载投入生产,涵盖了内容生成、聊天机器人、文档搜索等热门应用场景。
演讲精华
以下是小编为您整理的本次演讲的精华。
人工智能(AI)领域已经存在了几十年,但直到2022年11月ChatGPT推出,AI才真正触及全球数百万人。这一突破性发展将AI从仅为少数人可及的技术转变为一种工具,使全球人们能够轻松提高生产力并找到所需答案。2023年,亚马逊云科技推出了Bedrock服务,为客户提供访问大型基础模型的能力,使他们能够构建生成式AI应用程序。这一年标志着探索和实验,客户积极参与技术以了解它如何能够改变他们的业务和客户体验。
进入2024年,重点从单纯的实验转移到在生产环境中推出生成式AI应用程序,以提供有形的业务价值。可观察性、安全性和其他关键方面在这一年成为焦点。当我们走向2025年及以后,重点将放在扩大规模、提高开发人员效率、缩短上市时间以及推动组织内更广泛的用例采用上。
在与客户(尤其是中小企业)的工作中,演讲者观察到组织在采用生成式AI方面采取了三种不同的心态或策略。
第一种心态是AI先锋。这些组织不仅相信生成式AI的变革力量,而且还在大力投资构建有可能颠覆各自行业的用例。这些变革性用例面向客户,通常需要高层领导的支持来推动整个行业的转型。
一个AI先锋的例子是一家总部位于英国的律师事务所,它实际上是一家法律科技公司。他们雄心勃勃的目标是构建一个专门针对法律领域的大型语言模型。与使用现成模型并进行微调的做法不同,这家律师事务所正从头开始构建模型。法律领域是研究密集型、文档密集型和文本密集型领域,该公司致力于通过创新方法来改革这一领域。他们期望这种专门针对法律领域的大型语言模型将使他们能够将研究时间缩短30%,并提高每位员工的收入。
另一个例子是一家总部位于欧洲的教育科技公司。该公司正在开发一个沉浸式精准学习平台,这个概念乍一看可能有些复杂。传统的学习平台(如用于亚马逊云科技认证的平台)通常会为所有学习者提供相同的文本或视频课程,而不考虑他们在涵盖的不同主题上的个人长处和弱点。然而,这家教育科技公司采取了不同的方法。他们开发了一个AI教练,与每个学习者密切互动,了解他们与特定考试要求相关的独特长处和弱点。根据这一评估,AI教练会提供量身定制的精准内容,尽快弥补学习者的知识缺口。此外,该平台还提供了不断帮助学习者复习和加强学习的功能。这种方法类似于Khan Academy和Duolingo等平台,提供个性化的学习体验。
AI先锋的最后一个例子是一家总部位于欧洲的数字健康保险公司。该公司正在利用生成式AI提供高度个性化的保单生成、动态保单定制等功能,这是传统保险公司无法提供的。通过利用生成式AI的力量,这家数字健康保险公司正在彻底改革保险行业。
这些AI先锋用例的共同点是,它们都是各自业务的核心。这些并非外围用例,而是公司运营的核心。此外,大多数这些功能以前并不存在,这意味着这些组织正在引领潮流,定义新的体验并制定行业标准。
演讲者观察到的第二种心态是采用者。这些客户专注于发布一些快速上市的用例,以提供初始业务价值,同时逐步在组织内部建立技能和知识。
采用者中最常见的一种用例是开发面向客户和员工的聊天机器人,以增强客户和员工体验。这些聊天机器人可以在内部或外部部署,为用户提供一种方便高效的互动和获取信息的方式。
采用者中另一种流行的用例是图像和视频编辑,尤其是用于电子商务应用程序。生成式AI使得创建和修改库存图像变得更加容易,例如那些展示穿着不同服装或配件的模特的图像。这种能力对电子商务企业非常有价值,使他们能够高效地生成视觉吸引力强的产品图像。
在营销领域,采用者中采用生成式AI驱动的个性化和推荐功能也获得了显著的发展。这些技术能够创建高度针对性和个性化的电子邮件,以及为个人用户生成定制图像,从而增强整体营销体验。
虽然这些采用者用例并非各自业务的核心,但它们作为外围支持系统,使组织能够逐步建立专业知识并从生成式AI中实现业务价值。
演讲者确定的第三种心态是观察者。尽管人们可能期望所有组织都在积极开发生成式AI应用程序,但实际情况并非如此。确实存在一些客户正在密切关注这一领域,但由于特定的业务优先事项或监管顾虑,尚未开发任何应用程序。一些组织运营于高度监管的行业,正谨慎地观察世界各国政府如何处理AI监管,然后再决定是否开发生成式AI应用程序。
需要注意的是,这些心态或策略并非一种比另一种更好或更差。它们都是合理的方法,就像不同的投资理念一样。AI先锋正在追求高风险高回报的策略,而采用者则采取了更加平衡的方法。观察者则在谨慎地评估形势后再采取重大行动。
为了全面了解亚马逊云科技的生成式AI技术栈,演讲者概述了其三个层次。第一层是基础设施层,提供对加速计算实例和NVIDIA GPU以及亚马逊云科技自定义硅的访问。第二层是构建生成式AI的工具,包括Amazon Bedrock服务,它提供了来自各种提供商的广泛基础模型,并支持开发生成式AI应用程序。第三层是应用程序层,Amazon SageMaker所在的位置,使其成为构建生成式AI应用程序最简单、最快捷的方式。
在建立了这一背景后,演讲者继续介绍了客户在生产环境中部署生成式AI架构时采用的三种常见架构模式。
第一种模式是员工生产力和知识管理,在众多行业中都很普遍。一个用例示例是一家金融机构,旨在利用这种模式用于合规和风险管理流程。在这种情况下,合规官员可以提出诸如“欧盟最新的反洗钱法规是什么?”这样的自然语言问题。系统将通过内部银行文件、政策和公共法规文件生成全面的回应。重要的是,系统会考虑用户的访问级别,确保高级官员从内部银行策略中获得更详细的信息,而初级员工则根据其访问权限获得更通用的回应。
为实现这一用例,通常会采用Amazon Q Business,这是一款由生成式AI驱动的助手。Q Business简化了采用过程,并通过在后台处理各种任务(如模型选择、管道管理、向量数据库创建和嵌入生成)实现了快速投资回报。此外,Q Business还提供了与各种数据存储库的开箱即用连接器,使组织能够无缝集成现有数据源。此外,Q Business还支持复杂的身份验证和授权机制,消除了在这一领域进行自定义开发的需求。
深入探讨Q Business的架构,数据通过提供的连接器从各种数据源摄取。然后,文档和权限信息被摄取到队列中。经过身份验证的用户可以通过使用身份验证令牌向队列发出API调用,与知识库进行交互。
用户可以通过各种渠道与Q Business互动,包括专用的Web体验、嵌入到现有应用程序中(最近推出的功能)或集成到Slack或Teams等协作平台中,在这些平台上用户可以标记机器人以启动对话。Q Business还通过CloudWatch和CloudTrail提供日志和指标,使管理员能够监控应用程序使用情况和性能。
在采用 Q Business 用于知识管理和员工生产力应用时,需要考虑其提供的灵活身份验证。Q Business 支持与现有身份提供商 (IdP) 集成,无需创建和管理单独的 IdP 系统。或者,如果组织没有现有的 IdP,可以利用 Amazon Identity Center。
Q Business 提供不同的订阅层级,允许组织根据用户角色和需求选择适当的层级。Light 订阅层级允许用户与企业知识库交互并获取带引用的响应,而 Pro 层级则提供额外功能,如访问 Q Apps、在聊天会话期间上传文档进行实时交互、浏览器插件以及直接查询大型语言模型 (LLM)。
可观察性是任何应用程序的关键方面,随着使用案例和行业的成熟,它在生成式人工智能领域变得越来越受重视。Q Business 将各种指标和日志导出到 Amazon CloudWatch 和 CloudTrail,使管理员能够了解应用程序使用情况、调用的插件和 Q Apps。此外,Q Business 最近推出了分析仪表板,提供了用户如何使用应用程序的综合趋势和见解。
多模态支持是另一个关键特性,因为文档通常包含表格、图表、图形和嵌入式图像。Q Business 可以开箱即用地索引和理解这些视觉元素,无需额外的预处理。当用户提出查询且答案位于表格、图形或图像中时,Q Business 可以理解并在响应中包含相关的视觉元素以及引用。
评估对于任何应用程序都至关重要,Q Business 支持 RAGE 等评估框架,以及对需要人工审查评估指标的用例进行人工评估。
利用 Q Business 用于员工生产力和知识管理的一个客户是 SmartSheet,一家工作管理和协作软件即服务 (SaaS) 公司。SmartSheet 面临着从多个文档(包括公共文档、培训课程和内部渠道)中检索正确信息的挑战。通过将这些知识整合到一个 Q Business 应用程序中并将其集成到他们的 Slack 频道,SmartSheet 使用户能够快速访问所需的信息,通过这种无代码实现节省了数百个小时的生产力。
演讲者介绍的第二种架构模式是智能文档处理,这已被处理大量文档的各个行业广泛采用。一个例子是美国一家咨询公司正在使用这种模式为其付款智能解决方案准确处理索赔。通过实施基于生成式人工智能的智能文档处理解决方案,该公司通过提高索赔处理的准确性实现了 5% 的成本节省。此外,他们的解决方案在短短六周内以 90% 的准确率处理了 3000 万份文档,这是一项了不起的成就,相比之下,他们之前的非生成式人工智能解决方案在同一时间段内只能处理 10,000 份文档。该公司计划将此解决方案扩展到他们为之服务的其他行业。
智能文档处理的核心是 Amazon Bedrock,亚马逊云科技 的生成式人工智能服务。Bedrock 提供了广泛的模型选择,包括专有和特定领域的模型,以及用于不同模态(如文本、视频和图像)的模型。它还支持嵌入模型,最近推出了重新排序模型。Bedrock 通过托管微调、预训练、持续预训练和模型蒸馏等方式实现模型定制。模型蒸馏是一种最近推出的功能,允许用户将大型“教师”模型压缩为更小的“学生”模型,专门针对特定用例,从而提高效率、降低成本并加快性能。
Bedrock 支持托管 RAG (检索增强生成) 评估、知识库和模型评估,包括以 LLM 作为评判员的程序化评估,这是一个正在流行的概念。Bedrock 还提供了提示管理功能,包括针对所选模型优化提示,以及代理支持,使模型能够代表用户执行多步骤任务。
Bedrock 在设计时考虑了安全性、隐私性和治理,利用了 亚马逊云科技 提供的强大安全功能。
智能文档处理中观察到的最常见模式之一是检索增强生成 (RAG) 架构。在这种架构中,有两个主要流程:文档数据流和查询数据流。
在文档数据流中,从各种数据源摄取文档,根据需要进行分块或拆分,并使用嵌入模型将其转换为向量表示。然后,这些向量表示存储在向量数据库中,以便进行高效的语义相似性搜索。
当用户提交查询时,它也会被转换为向量表示。向量数据库执行语义相似性搜索以从存储的文档中找到最相关的上下文,并将此上下文提供给大型语言模型,生成最终响应。
虽然 RAG 架构已经相当成熟,但查询数据流在 2024 年取得了显著进展。演讲者强调了这种增强型 RAG 架构中采用的几种高级技术。
缓存获得了显著的关注,类似于数据库缓存。系统不会将每个语义相似的查询都发送到大型语言模型,而是首先检查查询缓存中是否有之前生成的响应。如果找到缓存的响应,则将其返回给用户,避免调用 LLM,从而减少延迟和成本。
另一种技术是查询翻译或查询扩展,它涉及将复杂查询拆分为多个较小的查询。这种方法有几个好处,包括通过分解复杂任务可能获得更好的响应,以及能够并行化任务以提高延迟。
查询重写是查询翻译的另一种形式,其中使用 LLM 来重新表述用户的查询,以更优化的方式提高检索最相关内容的可能性。
查询路由是一种流行的技术,它根据查询的复杂程度将其路由到不同的数据源或模型。正如在活动中宣布的那样,较简单的查询可以路由到较小的模型,而较复杂的查询则路由到较大的模型,从而优化成本和延迟。
重新排序是高级 RAG 实现中的一个关键阶段。从知识库或数据库检索上下文时,结果的顺序可能并不总是最相关的。重新排序模型(由 Bedrock 的重新排序 API 支持)可以根据相关性重新排序检索到的结果,然后再将它们传递给大型语言模型,从而提高生成响应的准确性。
动态搜索 API 集成是另一个可选阶段,如果通过 RAG 流程找不到相关的上下文,系统可以调用外部搜索 API 获取额外的结果,并将这些结果与检索到的上下文一起提供给大型语言模型进行响应生成。
演讲者强调了 Dandi AI 这一精英学习平台,它已成功实施了这种高级 RAG 架构。Dandi AI 为来自数百个国家的 40,000 名学生提供个性化辅导,支持多种语言。他们的目标是缩短用户上传笔记和接收基于这些笔记的个性化闪卡、测试或学习计划之间的时间。通过利用 Bedrock 的功能,如知识库和其他所提及的功能,Dandi AI 能够构建一个可扩展的、无服务器的架构,实现了 40% 的延迟减少,使学生能够更快地获得个性化的学习材料。
讨论的第三种架构模式是图像生成和编辑,这对于营销、产品、零售和广告团队尤其相关。这些团队利用大型语言模型和基础模型来快速高效地创建产品变体、添加变体或修改现有图像。这种方法不仅缩短了上市时间,还降低了传统摄影和图像编辑过程的相关成本。
这些用例的核心是 亚马逊云科技 的专用加速器,如 Inferentia、Trinium 和 Inferentia 2。客户使用这些加速器训练、调优和部署大型语言模型,从而获得了成本效益和高性能。
一个值得注意的例子是 Amazon.com,它在 Amazon.com 平台上使用这些专用加速器来支持其生成式人工智能助手 Rufus。Amazon 已摄取了数十万种产品目录、用户评论和社区论坛,使 Rufus 能够帮助用户做出明智的购买决策、进行产品比较并进行互动式对话。
在上一次 Prime Day 活动期间,Amazon 在多个区域使用了 80,000 个 Trinium 和 Inferentia 芯片,实现了令人印象深刻的 300 万个标记/分钟的吞吐量,第一个响应的 P99 延迟为 1 秒。值得注意的是,这种性能是以比其他评估过的解决方案低 4.5 倍的成本实现的,展示了 亚马逊云科技 专用加速器的高性能和低成本。
图像生成和修改的架构通常涉及用户将图像上传到S3存储桶,通常利用高性能S3 Glacier Deep Archive存储层,该存储层针对低延迟、高吞吐量工作负载进行了优化,成本较低。图像上传会触发由Lambda、SNS和SQS编排的工作流,其中托管在由亚马逊云科技加速器提供支持的EC2实例上的模型会根据用例需求生成或修改图像。
另一个由SQS和Lambda触发的工作流,然后通过AppSync等服务将处理后的图像返回给用户,并可选择将结果存储在DynamoDB或S3存储桶中以供以后访问。
成功实施此架构的一家客户是Luravert Studio,这是一家全球性的生成式AI驱动的图像和视频编辑应用程序开发商和发布商。Luravert Studio在其50个移动应用程序中拥有超过20亿次下载量,旨在通过减少推理时间和在多区域设置中部署更多图像和视频模型来提高每个应用程序的收入。
然而,A100 GPU的稀缺、高成本和延迟瓶颈阻碍了他们实现业务目标的能力。通过与亚马逊云科技团队合作并评估亚马逊云科技的Inferentia和Trainium芯片,Luravert Studio成功实施了一种解决方案,降低了31%的成本,推理延迟改善了19%,并实现了高吞吐量,使他们能够实现业务目标。
展望2025年及以后,演讲者讨论了“平台思维”以及如何将其应用于生成式AI,以解决降低成本、提高开发人员效率、共享最佳实践和应用组织范围内模式等常见挑战。平台思维并非新概念,之前已在微服务和数据平台的背景下应用过。其核心思想是识别多个应用程序所需的通用组件,并让专门的平台团队以高质量构建和维护这些组件。然后,这些组件通过共享部署或可根据需要实例化的共享基础设施模板,向不同的应用程序团队公开。这种方法避免了重复工作,并促进了整个组织的一致性。
在生成式AI的背景下,演讲者提出了一个由五个核心组件组成的生成式AI应用程序平台:
- AI数据:该组件提供了连接到组织内部和外部各种数据源的文档化数据管道。这些管道通过分块文档、生成嵌入(包括多模态嵌入)和将处理后的数据加载到知识库来转换数据。可以使用Amazon Glue、Step Functions、Textract、Bedrock、Lambda和Comprehend等服务来构建这些数据管道。
- AI核心:平台的核心是AI核心,它包括几个关键功能。AI网关通过统一的API提供对基础模型的安全访问,实现无缝切换不同模型。它还支持成本和使用情况跟踪,可以专用于单个应用程序或跨应用程序共享。可以使用API Gateway、Lambda和DynamoDB等服务来构建AI网关。
AI核心还包括对基础模型的访问,这些模型可以自行托管、通过SageMaker和Bedrock等服务进行管理,或跨应用程序共享。提示管理、代理、防护措施和评估功能是AI核心的重要组成部分。虽然Amazon Bedrock提供了这些功能,但也可以使用API Gateway、Lambda和DynamoDB构建自定义实现。
评估是AI核心的一个关键方面,支持分类、问答和摘要等不同任务。它需要访问开源数据集并支持流行的指标。可以使用S3存储数据集、Step Functions进行编排,以及Amazon Batch进行计算来构建评估功能。或者,也可以利用Amazon Bedrock内置的评估功能。
- 应用程序后端:该组件提供客户端交互网关、用于业务逻辑的通用计算以及交互存储。可以使用API Gateway、Lambda、SQS和DynamoDB等服务来构建应用程序后端,支持同步、异步和批处理模式。
- 应用程序运营:该组件包括可观察性、安全性、AI运营管道以及业务指标和报告。可观察性可通过CloudWatch、X-Ray和SNS实现监控、警报和日志记录。安全性功能包括加密(KMS)、密钥管理(Secrets Manager)、防止提示注入攻击(WAF V2)以及身份验证和授权(Cognito和Amazon Verified Permissions)。
AI运营管道促进应用程序从开发环境到生产环境的转移,可能涉及人工审批和跨多个账户的部署。可以使用CodePipeline进行编排、CodeBuild进行应用程序代码以及CloudFormation进行基础设施自动化。
业务指标和报告使组织能够衡量其应用程序的影响并收集用户反馈。可以使用Kinesis流式传输交互日志、S3进行存储,以及QuickSight进行数据可视化。
- 平台控制平面:该组件提供平台治理、平台助手、内部开发人员门户、平台运营和平台安全性。平台治理通过使用S3、CloudFront、API Gateway、Lambda、DynamoDB和Cognito构建的平台UI,实现了类似SaaS的体验,用于入职多个租户(应用程序)并管理用户。
由Amazon CodeWhisperer提供支持的平台助手可以帮助平台工程师和开发人员,同时简化许可证管理。内部开发人员门户使用Service Catalog和Backstage构建,为开发人员提供了一个单一窗口,用于构建、部署和运行代码。
平台运营负责为新应用程序提供亚马逊云科技账户和基础设施,利用CodePipeline、CodeBuild和CloudFormation等服务进行编排和自动化。
平台安全性包括SIEM解决方案、API访问日志监控(CloudTrail)以及其他安全服务,如Security Hub。
演讲者建议为生成式AI应用程序平台采用多账户结构,其中平台控制平面和AI网关等共享服务拥有专用账户。应用程序团队将拥有单独的开发、测试和生产环境账户,根据租户或应用程序的数量,可以有多个实例。
为了支持处于生成式AI不同阶段的客户,亚马逊云科技提供了一系列服务和资源:
- 对于刚开始的客户,亚马逊云科技提供免费的一天发现研讨会,团队可以与客户合作,根据其他客户的经验评估和确定潜在的用例优先级。
- 一旦确定了用例,亚马逊云科技提供设计研讨会或“获取见解”研讨会,团队将花费4个小时分析客户的数据,了解如何将其用于生成式AI应用程序。
- 在实验阶段,亚马逊云科技提供了一个概念验证(PoV)演示小组,亚马逊云科技团队将与客户团队合作一周,快速构建用例并展示其业务价值。还提供了沉浸式培训等能力选项,以深入了解特定服务或架构。
- 对于构建最小可行产品(MVP),亚马逊云科技提供基于体验的加速器,亚马逊云科技团队将与客户团队合作数天,免费构建和推出生产就绪解决方案。
- 随着客户在生产环境中扩展其生成式AI应用程序,亚马逊云科技专业服务和亚马逊云科技合作伙伴网络可以提供支持和资源。
总之,这个视频全面概述了生成式AI采用模式、常见架构模式以及使用亚马逊云科技服务扩展生成式AI应用程序的平台思维方法。演讲者强调了可观察性、安全性和开发人员效率的重要性,并重点介绍了亚马逊云科技为客户提供的支持,从初步探索到大规模生产部署的各个阶段。
下面是一些演讲现场的精彩瞬间:
演讲者概述了本次演讲的议程,涵盖了生成式人工智能的演进、客户采用模式,并寻求听众对他们经验的反馈。

Q Business提供灵活的订阅层级,Pro和Light,专门为不同的用户角色和需求量身定制,实现无缝访问企业知识库、实时文档交互和直接查询大型语言模型。

亚马逊云科技提供了一个全面的人工智能数据管道,支持与各种数据源无缝集成、PII删除、分块功能、多模态嵌入生成以及灵活的知识库选项,以满足不同应用程序的需求。

亚马逊云科技提供了Glue、Step Functions、Textract、Bedrock、Lambda和Comprehend等一系列服务,用于构建健壮的生成式人工智能应用程序数据管道,涵盖数据摄取、编排、OCR、嵌入生成、计算和PII删除。

人工智能网关提供对基础模型的安全访问、用于不断发展的模型的统一API、成本和使用情况跟踪,并且可以专用或跨应用程序共享,使用无服务器服务(如API网关、Lambda和DynamoDB)构建。

强调评估功能的重要性,包括访问开源数据集和流行指标,用于构建各种人工智能用例,如分类、问答和摘要。

亚马逊云科技提供了一系列服务和合作伙伴关系,帮助客户扩展生产应用程序,确保无缝增长和成功。

总结
这篇演讲深入探讨了生成式人工智能的演进及其被客户采用的情况,提出了三种常见的心态:大力投资于变革性使用案例的人工智能先锋,快速推出上市使用案例的Adopters,以及谨慎观望的观察者。它展示了2024年三种流行的架构模式:利用Amazon Q Business提高员工生产力,利用Amazon Bedrock的检索增强生成进行智能文档处理,以及利用亚马逊云科技硅加速器进行图像生成/编辑。
展望2025年及以后,该演讲强调采用平台思维来高效扩展生成式人工智能应用程序。它概述了一个全面的生成式人工智能应用程序平台,包括五个核心组件:人工智能数据(数据管道和知识库)、人工智能核心(基础模型、提示、代理、防护措施和评估)、应用程序后端、应用程序运营(可观察性、安全性、人工智能运营管道和业务指标)以及平台控制平面(治理、开发人员体验和运营)。
该演讲重点介绍了亚马逊云科技可用于构建每个组件的服务,使组织能够简化开发、提高开发人员效率并促进最佳实践共享。它还讨论了亚马逊云科技的多账户结构建议以及各种支持服务,从发现研讨会到生产支持,旨在协助客户完成整个生成式人工智能之旅。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。
873

被折叠的 条评论
为什么被折叠?



