强化新闻传播链:AP在亚马逊云上构建的弹性媒体供应链
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, News Distribution Pipeline, Resilient Architecture, Multi-Region Deployment, Data Replication, Region Health Monitoring]
导读
美联社使用跨多个亚马逊云科技区域的无服务器模式对其关键任务发布平台进行了现代化改造。这一尖端平台帮助美联社履行其使命,即每天为全球超过一半的人口提供快速、准确的新闻报道。了解美联社如何与亚马逊云科技合作,审查并加强其媒体供应链平台的容错能力。探索为确保新闻持续传递而实施的策略和架构模式,即使在面临区域性中断时也能保持运作。深入了解如何在亚马逊云科技上构建高可用性和弹性的工作负载,使您的组织能够保持运营连续性并满足严格的正常运行时间要求。
演讲精华
以下是小编为您整理的本次演讲的精华。
在新闻传播的年鉴中,美联社(AP)矗立为一座坚定的信任灯塔,向世界传递快速、准确和客观的信息。这家古老的机构成立于1846年,经历了时代变迁的洗礼,适应了技术进步,同时坚持新闻卓越的不懈承诺。凭借178年的悠久历史和59座普利策奖以及2024年获得的电影《马里乌波尔的20天》奥斯卡奖,AP在新闻行业确立了开拓者的地位。
在2024年亚马逊云科技re:Invent大会上,AP的弹性之旅成为焦点,揭示了他们在亚马逊云科技云上构建的复杂媒体供应链。AP自主开发的技术平台运行在亚马逊云科技上,处理整个新闻流程,从记者在现场拍摄照片、视频和文字,到编辑处理内容并发布给客户和公众。该平台利用CloudFront、S3Events、SQS、SNS、API Gateway、Lambda和DynamoDB等亚马逊云科技服务来实现内容摄入、处理和分发。
例如,在2024年巴黎奥运会上,一名AP摄影师捕捉到Mallory Swanson在女子足球决赛中打进制胜球的瞬间。这些照片通过CloudFront和S3Events等亚马逊云科技服务立即传输给世界各地的编辑。编辑们使用一个自定义的照片编辑工具(一个连接到一系列无服务器微服务的Angular前端)来选择最佳照片、应用metadata并发布给全世界。该应用程序利用区域API Gateway端点、Lambda函数、S3存储以及SQS和SNS进行集成,有效地构建了一个无服务器的发布-订阅消息总线。
Akshay Saksera(解决方案架构师领导)和Chad Shore(负责AP软件工程)带领观众领略了AP的技术转型历程。Saksera强调了弹性的重要性,引用了亚马逊CTO Werner Vogels的话:“重要的是在假设一切都会随时失败的情况下构建系统。”这一理念支撑了AP的方法,认识到随着系统变得更加复杂,故障可能会在各个层面上出现。
Saksera警告说,停机可能会给组织带来沉重的代价,影响收入来源、品牌声誉、生产力和合规性。弹性是指工作负载从基础设施或服务中断中恢复的能力,动态获取计算资源并缓解错误配置和临时网络问题等问题,这是亚马逊云科技良好架构框架所定义的。
共同责任模型界定了亚马逊云科技和客户之间的责任。虽然亚马逊云科技确保底层基础设施的弹性,但客户有责任确保在云中运行的工作负载的弹性。这种责任取决于所选择的亚马逊云科技云服务,像Amazon S3和Amazon DynamoDB这样的托管服务需要客户通过备份、复制和版本控制策略来管理数据弹性。
Saksera回答了一个常见问题:“我是否必须部署在多个区域才能实现弹性?”他的回答强调了亚马逊云科技区域的固有弹性,每个区域都包含多个Availability Zones,这些可用区之间有一定的物理距离,旨在最大限度降低并发故障的风险。然而,他警告说,仅在单个区域内架构良好并不能保证弹性;组织必须仔细评估工作负载的要求和多区域方法的潜在好处。
亚马逊云科技提供了四种多区域灾难恢复策略:备份和恢复、试运行、热备用和主动-主动(或主动-被动)。这些策略满足从数小时到近乎实时的不同恢复时间目标(RTO)和恢复点目标(RPO),使组织能够在弹性和运营复杂性之间取得适当的平衡。
Chad Shore分享了AP在弹性之旅中面临的挑战和经验教训。最初,AP庆祝将系统成功迁移到亚马逊云科技,但很快意识到在云中复制内部架构并不能充分利用云的能力。这促使AP开始了无服务器之旅,重构和重写应用程序以实现云原生,从而降低成本、提高能力并减轻管理负担。
然而,随着AP的无服务器足迹不断扩大,一个新的认识浮现出来——要实现符合服务级别协议(SLA)的高可用性,需要采用多区域方法。Shore分享了三个关键观察结果,这些结果塑造了这种架构方向:与软件变更相比,硬件不太可能成为问题的根源;同一区域内的服务具有更高的互连性,放大了级联故障的潜在风险;与硬件相关的中断往往持续时间较短,而与软件相关的中断往往持续时间较长。
认识到自身使命的关键性,AP做出了战略决定,在至少两个亚马逊云科技区域运行所有关键工作负载。Shore承认这一决定需要谨慎考虑,强调了诸如复制延迟和不一致性的容忍度、数据存储服务一致性模型以及开发流程的成熟度等因素。
AP的多区域实施之旅并非一帆风顺,尤其是在数据复制领域。Shore回顾了AP最初尝试利用S3跨区域复制的经历,这未能满足他们的延迟要求,因为跨区域复制的SLA规定99%的数据将在几分钟内复制,而四个九将在15分钟内复制。不屈不挠,AP设计了一种解决方案,通过自己的软件模拟S3事件,并利用DynamoDB全局表来更快地复制小对象和metadata,观察到他们模拟的事件比默认的S3事件更快,而DynamoDB全局表复制则在毫秒级别发生,而不是秒或分钟级别。
确保应用程序和区域的健康状况成为AP弹性策略的关键组成部分。Shore详细介绍了一种模式,应用程序调用区域健康检查端点来确定最近的地理位置健康区域。该端点反过来从一组应用程序感知的Lambda函数中聚合健康信息,避免直接调用Lambda而导致超时和API Gateway限制。AP在最初的实施中遇到了挑战,健康检查会直接调用所有特定于应用程序的Lambdas,随着消费者应用程序和健康检查的数量增加,会导致性能问题和超时。AP通过引入抽象层来解决这个问题,利用S3文件查找和DynamoDB表查询,这比同时调用多个Lambdas更快、更不容易出错。
在一次影响某个区域控制平面的中断期间,AP遇到了一个重大挑战:他们依赖Route 53进行全局DNS管理,这阻碍了他们发出管理命令将流量转移的能力。AP遵循亚马逊云科技的指导,通过将全局DNS转移到另一个提供商来解决这个问题,从而消除了他们在故障恢复操作中对控制平面的依赖。亚马逊云科技建议避免在故障恢复操作中依赖控制平面,因为像Route 53这样的服务虽然在单个区域(Route 53在美国东部1区)有控制平面,但数据平面操作则分布在多个区域。
Saksera深入探讨了亚马逊云科技提供的各种服务和最佳实践,组织可以利用这些来加强弹性态势。亚马逊云科技弹性中心是管理和改进工作负载弹性的中心,支持定义弹性目标、态势评估以及实施良好架构框架建议。它与CloudFormation和Systems Manager等服务集成,提供建议并管理应用程序资源。
亚马逊云科技故障注入模拟器(FIS)有助于进行受控的混沌工程实验,允许组织向工作负载注入故障,同时受益于防护措施、自动回滚和可重复的测试框架。FIS使组织能够定义目标(如EC2实例、ECS、RDS)、操作(如终止实例、使实例不可用)和受控实验的停止条件。
Saksera强调了Amazon应用程序恢复控制器,它简化了多AZ和多区域恢复,包括区域转移、故障转移和回退的路由控制以及应用程序监控的就绪检查。它提供了诸如基于定义的触发器和阈值实现跨Availability Zones的区域自动转移等功能。
对于仍在依赖基于服务器的工作负载的组织,亚马逊云科技灾难恢复服务(DRS)提供了一种可扩展且经济高效的解决方案,可最大限度减少停机时间和数据损失。通过块级数据复制和故障转移功能,DRS使组织能够在亚马逊云科技区域或本地数据中心快速恢复服务器,只需点击一下按钮即可启动恢复实例和堆栈。
可观察性是弹性的关键支柱,亚马逊云科技提供了一套工具来解决这个问题,包括Container Insights、X-Ray Insights、Lambda Insights、Contributor Insights、Metrics Explorer、CloudWatch Service Lens和CloudWatch Synthetics。这些工具为基础设施、应用程序和网络提供了全面的监控功能,使组织能够主动识别和缓解潜在问题。
Saksera强调了混沌工程的重要性,这是一种有纪律的方法,用于在故障升级为中断之前识别故障。通过注入硬件故障、软件故障和非故障事件(如流量峰值),组织可以持续测试和加强其工作负载的弹性,从而发现可能被忽视的漏洞。
在整个会议过程中,Shore和Saksera强调了简单性的重要性,突出了AP如何定制已知模式和最佳实践以适应其特定的架构需求。从解决控制平面独立性到进行混沌工程测试,从优化数据复制延迟到监控系统和区域健康状况,AP的旅程体现了在复杂性面前积极追求简单性的力量。
下面是一些演讲现场的精彩瞬间:
Dominic Del Molino,亚马逊云科技全球公共部门现场技术和工程副总裁,介绍了自己并强调了与具有关键任务要求的客户互动的荣幸。

演讲者解释了主动-主动方法,该方法涉及跨两个区域部署工作负载以处理全部生产流量,从而实现故障转移和地理位置路由。

Moses Yale Beach在建立美联社时的开创性努力,利用船只、小马、马车和新发明的电报机将墨西哥-美国战争的新闻传播出去,为现代新闻传播奠定了基础。

美联社拥抱技术和创新,开创了现场选举报道、计算机化编辑运营、照片分发系统和人工智能辅助新闻写作。

利用亚马逊云科技服务如CloudFront、S3 Events、SQS和SNS,美联社技术平台实现了照片的即时全球分发,包括Mallory Swanson的制胜进球,供编辑使用定制构建的照片编辑工具查看和发布。

亚马逊云科技推出了CloudWatch Service Lens,一个统一的视图,用于可视化和分析跨指标、日志和跟踪的应用程序的运行状况、性能和可用性。

演讲者邀请观众扫描二维码,了解更多提及的来源或与他们的客户经理联系以获得进一步帮助。

总结
在这个引人入胜的叙事中,我们踏上了一段探索美联社(AP)在亚马逊云科技上构建的坚韧媒体供应链的旅程。故事从美联社丰富的历史开始讲起,可追溯至1846年,一直以将值得信赖、准确的新闻传递给全世界为己任。
美联社的技术平台是一个在亚马逊云科技上运行的定制系统,协调了新闻从现场到公众的无缝流动。从摄影师捕捉关键时刻到编辑策划内容,该平台利用了CloudFront、S3、Lambda和API Gateway等亚马逊云科技服务,实现了新闻的实时全球分发。
随着美联社的无服务器足迹不断扩大,他们意识到需要实现多区域弹性以满足严格的服务水平协议。这一认识促使他们仔细评估并实施亚马逊云科技最佳实践,如控制平面独立性、混沌工程测试和优化的数据复制策略。
该叙事重点强调了美联社在三个关键领域的经验:应用程序现代化加速超越了简单的迁移;多区域部署需要仔细评估;积极追求简单性至关重要。美联社的弹性之旅展现了定制亚马逊云科技最佳实践以满足特定需求的力量,确保在大规模事件期间新闻传播不间断。
最后,叙事邀请观众体验美联社值得信赖的新闻源,并建议参加相关会议,彰显了美联社对创新的承诺以及与亚马逊云科技的合作伙伴关系。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。
17万+

被折叠的 条评论
为什么被折叠?



