网络就绪、恢复和重建的最佳实践(由Commvault赞助)

网络就绪、恢复和重建的最佳实践(由Commvault赞助)

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Convault, Cyber Readiness, Recovery, Rebuild, Air Gaps, Clean Room Recovery]

导读

随着近期勒索软件和安全事件的增加,网络弹性已成为组织的一项必备技能。在本次会议中,您将学习如何为云原生工作负载和生成式AI技术栈构建弹性,如何在干净的、按需的云环境中自动测试您的网络恢复实践,以及如何简化发现并加速重建您的可组合应用程序依赖关系。参加本次会议后,您将获得可行的指导,了解如何根据亚马逊云科技和Commvault的最佳实践更好地保护和恢复您的亚马逊云科技资源。本次演讲由亚马逊云科技合作伙伴Commvault为您带来。

演讲精华

以下是小编为您整理的本次演讲的精华。

欢迎各位参加本次网络安全准备、恢复和重建最佳实践会议。我是Michael Sulo,与我一同出席的是同事Matthew Erickson,我们都在Commvault工作。对于不了解Commvault的人,我们是一家拥有多项认证的高级亚马逊云科技合作伙伴,自2008年首次支持S3以来,一直为亚马逊云科技客户提供保护和网络恢复能力。

当我提到网络恢复能力时,用词很重要,所以我想确保我们在同一层面上。对我和Commvault来说,网络恢复能力是指预测、抵御、从不利条件和威胁中恢复并适应的能力。在这个定义中,我想重点关注两件事:1)适应这个词。人们常常忽视适应这一部分,这可能会产生不利影响。2)网络恢复能力是一个连续的过程。您将持续处于这种状态,因此牢记这些是至关重要的。

我将从高层次介绍网络恢复能力,然后将话题转交给Matt。Matt将深入探讨我们拥有的不同隔离环境,讨论干净室恢复,这将是今天大多数解决方案的共同主题。他将讨论依赖关系发现和保护,也称为Cloud Rewind。随后,他会将话题转交回我,我将讨论事件驱动的持续备份,也称为Clumio。最后我们将总结,届时将有充足的时间进行问答环节,所以请将问题留到那时再提出。

简单介绍一下我自己,Michael Sulo,我是Commvault的超大规模和安全产品经理主管,我的职责和热情是为亚马逊云科技平台上的云资产和应用程序持续提供保护和安全。我与Matt密切合作,帮助我们的客户从区域到本地区域及更远的范围内提高网络恢复能力。这是我第四次参加re:Invent,周四总是很有挑战性的。我们已经度过了最困难的时期,今晚还有一个派对,所以让我们开始吧,这样我们就都可以参加派对了。

我有意提到了云资产和应用程序,因为我在这里已经很长时间了,如果有人能在我们结束后猜出我在这里多长时间,我会免费送他一支雪茄。我这样说是因为多年来,我了解到传统的备份恢复在云世界中已经不够了。当我们开始看到云采用时,它就像别人的机器,我们内部有很多关于这方面的笑话。然而,人们开始以不同的方式构建,弹性和其他因素也成为了问题。我们意识到我们必须做出改变。

现在,我们为网络恢复能力而构建,网络恢复能力不仅仅是花哨的备份、快照和其他东西。它是关于持续发现现有资产、找到不同的数据孤岛、理解数据、理解应用程序的上下文,并为所有这些特定资产提供全面的保护和安全。

当然,我们必须讨论共享责任,但我相信Commvault在云安全方面发挥着重要作用。在过去20年左右的时间里,我们发布了许多功能来确保您的数据安全,我认为我们是值得信赖的数据保管人。对Commvault来说,这意味着我们在任何地方、任何时候都提供加密,无论是静态数据、传输数据还是使用中的数据。我们继续关注诸如量子等领域,发布我们的后量子密码学。我们在产品中提供了许多不同的功能。

不仅如此,在Marketplace上还有经过CIS一级加固的AMI映像,还有多因素身份认证、多人授权等,所以归根结底,我们非常重视数据安全,这就是我想通过这张特定幻灯片传达的全部内容。

当我谈到网络恢复能力是一个连续过程时,这张幻灯片试图概述了这一点,尽管它看起来像是一条相当线性的路径。我将在最后讨论适应性,但一切都始于理解您的数据。如果您看左侧的极端情况,我们正在讨论敏感数据扫描和分类。您必须知道数据的位置和数据的类型,这是至关重要的。之所以重要,是因为当我们想对实时数据或备份数据提出风险建议或甚至补救措施时,对数据有高保真度的理解是非常重要的。

当我们继续向右侧看时,我们会看到威胁建议。我们有自己的网络欺骗产品,可用于现代和传统工作负载,因此您可以提供良好的周边保护,从而为我们提供早期预警。对于本周参加过许多安全会议的人来说,每一个会议都有一个主题,他们都在谈论测试、测试、测试、测试。您将在今天的整个演示过程中听到这句话上千次,但测试是非常非常关键的。

当我们与客户交谈时,他们告诉我们他们知道需要进行测试,但这确实非常困难,所以这就是我们构建干净室恢复的原因,因为它为人们提供了一种简单安全的方式来开始测试他们的数据。这不是它的唯一方面,但这确实是我们为用户提供简化的一个非常重要的方式。

总有一些明显的情况:发生了一些不好的事情,所以您需要所有这些不同的恢复模式,因为正如我之前所说,传统恢复可能不足以满足您的环境需求,尤其是如果您有现代应用程序的话。这就是Cloud Rewind、重建和Clumio的用武之地,我们必须在云规模上跨分布式应用程序执行这些操作。您测试这些不同模式以查看哪种最适合您的工作负载是非常重要的。

测试非常重要,最后我们来到适应。在整个生命周期中,当您继续前进时,您将不断学习新的东西。您所学到的新事物必须被反馈到这个等式的左侧,因为如果您不这样做,坏事情就会继续发生。我们帮助的第二次威胁中有60%的用户没有从最初的事件中吸取教训。因此,适应这些变化是至关重要的,随着新威胁进入我们的环境,我们需要持续保持警惕。

我们已经为广泛的人群做出了贡献,我知道这张幻灯片上有很多标志,但它真正想要传达的是,无论您使用什么服务、公司规模有多大,工作负载位于内部、公有云、政府云、本地区域、wavelength zones或任何其他地方,我们都希望确保为广泛的领域提供全面的保护、安全和网络恢复能力。

我们也不要忘记,还有一些非常特定的垂直场景需要考虑。当我们谈到公共部门政府云时,我们在产品中构建了各种服务器端加密功能,以确保这些特定供应商及其用例的最高安全性,尤其是当我们谈到政府和量子作为一种特定威胁时,这一点至关重要。

当我们谈到金融服务和医疗保健时,我们再次考虑敏感数据发现,了解个人身份信息、患者数据等非常重要的信息。在医疗保健领域,我们完全支持Epic或MedTech及我们的解决方案,因此客户可以在确保完全受保护的情况下迁移到云端。

对于高科技可组合应用程序和容器化应用程序,我们确保在其现有状态下对其进行保护,并通过Cloud Rewind为其提供高级恢复选项,因此它们可以无缝地作为一个完整的单元被放回或移动到其他位置。

我们如何做到这一点,得力于我们对所有应用程序的广泛深入保护。不仅仅是您在这里看到的服务,而是我们执行这些操作的深度使我们与该领域的其他一些参与者有所不同。无论我们谈论的是计算、数据库还是无服务器,我们都有广泛深入的保护范围来确保每个人的网络恢复能力。不仅仅是这些服务。我们与Amazon Organizations和Control Tower的深度集成允许我们持续发现新事物,并为具有多账户登录区域和其他复杂性的环境提供相同的保护。

我知道我谈了很多我们所做的事情,现在让我们转移话题,讨论我们如何帮助我们的共同客户提高网络恢复能力。我相信在座的每个人都熟悉索尼,这是一家媒体和娱乐公司,拥有向全世界传递感动的明确愿景,员工约9000人。

与我们的许多客户一样,他们最初向我们提出了相对简单的问题。他们有许多点解决方案,增加了复杂性和成本,他们正在迅速转向云端,并提出了一些疑问。服务水平协议不匹配,他们在将工作负载从内部迁移到云端时遇到了问题。在索尼的情况下,他们对在云之旅中面临的威胁深感忧虑,尤其是一些工作负载正在重新构建和重构。

以下是对原文的翻译:

这里有一个简化的示例来说明。我们在保护他们的本地状态,将一个常见的SQL数据库重新部署到多可用区域DB集群中,使用短期快照,将它们存储到长期存储中,甚至用于开发/测试场景。对我们来说,这是一个简单的过程,在保护本地状态的同时,我们允许该产品将其数据库完全迁移到云端,并继续在那里保护它。客户没有任何风险暴露,我们能够为他们减轻负担,为他们提供了4倍更低的RPO,这让他们非常高兴,因为不仅最初的RPO是一个问题,而且随着他们的发展,事情会以大规模持续增长,所以我们不仅实现了,而且超过了他们的期望。

我们在成本上有了大幅度的降低,特别是在我们的Amazon历史技术方面,因为我们高效地存储了他们的快照和备份,他们经历了显著的成本降低。对他们来说最重要的是拥有一个跨越整个资产的单一窗口。由于我们不仅保护了Amazon上正在发生的事情,还保护了他们的本地状态,甚至一些SaaS应用程序,他们拥有一个单一的解决方案来保护和确保所有这些,为他们提供了完整的网络恢复能力。

如果没有一些人工智能的内容,那还算什么亚马逊云科技 re:Invent 2024会议呢?我会简单地介绍一下,但这是一个大问题,我相信无论是主旨演讲还是其他,人工智能都是一个重要话题。我认为人们正在如此迅速地前进,以至于他们忘记了需要网络恢复能力、安全性和数据保护。

正如我们所知,从底层开始,我们对EC2和大部分已经存在于Amazon的基础设施都有深层保护。对我们来说,这是基本要求;当您为人工智能应用程序构建这些基础设施时,我们可以保护您的工作负载。对于私有数据,也就是数据层面,我们讨论了敏感数据发现、分类和修复。我们甚至可以提供数据编辑,但更重要的是,由于我们与S3团队、存储团队、EFS、EBS以及他们使用的任何其他存储层都有着深厚的关系,因此从Commvault的角度来看,我们提供全面的保护。

因此,您的人工智能工作负载的基础设施数据已经得到保护。随着用户继续适应Amazon Bedrock、其他人工智能模型,甚至可能在这些特定数据层之外的某个地方有训练数据,我们将继续评估并为其提供保护。简而言之,在您的人工智能应用程序之旅中,请知道Commvault已经为您提供了网络恢复能力。

就这样,我将把话筒交给Matt。

大家好。如果我的口音有点奇怪,Mike会翻译,所以我保证不会再有生成式人工智能,Mike所做的没有问题,但不会再有生成式人工智能。

所以看,正如我所提到的,这是我第四次参加re:Invent,我不知道今天有谁看了主旨演讲,但我很高兴听到他们邀请了Canva上台,他们谈到了如何构建一个单体应用程序,并继续迭代和现代化,一直到微服务。每次离开这个活动时,我都会担心我的应用程序还不够现代化,还没有足够的容器化,也没有足够的无服务器架构。不要担心;今天您将看到的内容,您将带走提示和最佳实践,无论您在这一旅程中处于何种阶段,都能提高网络恢复能力。

从不可变的虚拟空气间隙开始。让我解释一下什么是空气间隙。我们从计算机网络开始,网络A上的计算机无法与网络B上的计算机通信;它们是物理分离的。然后我们有空气间隙备份,我们实际上将磁带从库中取出并送往异地,以防止意外或恶意删除。我们希望将它们从生产应用程序和生产站点的影响范围中移走。

当我们开始采用云优先的方法来部署应用程序时,我们希望实现空气间隙为我们提供的同样保护,但我们需要数据更易于访问。如果您曾经等待过卡车返回现场,您就会明白我的意思。

亚马逊云科技和Commvault都可以为您提供一些出色的现代方法,以获得与空气间隙相同的保护。例如快照复制、跨区域服务、独立副本、数据边界(对于那些刚刚在Becky Weiss的会议上的人来说,您会知道我在说什么)、不可变性(以防止意外和恶意删除)以及Commvault自己的秘密来源,我们稍后会讨论。

从快照开始,您今天应该使用快照。这是您应用程序的第一个恢复点。它是一个帐户内快照,一个帐户内保护,您可以将其用于EBS、RDS、Redshift等。这里有一些隔离;您的快照是一个完全独立的副本,通常存储在11个9的持久S3中,因此您可以免受任何EBS服务问题的影响,这很棒。我们在本地企业存储阵列上从未拥有过这种功能。

正如我们所知,我们希望将快照或备份从生产帐户中移走,因此您应该将它们复制到保管帐户、数据掩体或您组织所称的其他位置。理想情况下,如果您正在寻求区域级别的保护,您应该跨区域复制它们。正如我们在当今时代所知,一切都是深度防御,因此当您将事物从生产帐户的操作域中移出时,您将希望重新加密这些快照,以便您可以在它们周围添加另一层控制,从而有可能防止您的生产帐户操作它们,因为这是您的最后一道防线,您的备份。

第二个空气间隙是一个有点独特的,我们从严格监管的客户那里听说过,即服务独立备份。这是什么意思呢?在金融服务和保险等严格监管的行业中,他们希望今天备份某些内容,并在七年后将其恢复到该服务,但他们希望获得保护,以确保无论亚马逊云科技对该服务进行何种更改,恢复都能成功。

我们在这里所做的是保护与该特定资源相关的所有数据,以及允许您重建的所有元数据,如vCPU和RAM计数、文件和文件夹权限、深层应用程序理解(如模式、表和容器清单)。同样,您收集所有这些信息,将其写入持久S3,然后进行复制。实际上,我们看到许多受监管的客户希望将此推送回本地或推送到云外或备用云位置。在澳大利亚,我们的银行肯定希望向其监管机构证明,他们可以备份到备用云并恢复到该备用云,作为灾难恢复场景。

要实现服务独立备份,您将需要深入了解云、容器、SaaS和传统应用程序。您可以查看Commvault的列表,如果有任何遗漏,请在本次演示结束后抓住Mike和我;我们很乐意与您交谈。

我们要讨论的最后一个空气间隙是网络空气间隙,我相信这就是您最初认为我要讨论的内容。在网络空气间隙中,我们有生产应用程序,它们正在备份到主备份副本。您应该对这个主备份副本进行包装,形成一个数据边界。

数据边界是由一系列安全控制组成的,包括服务控制策略、基于资源的策略、VPC隐式策略,它们可以强制执行您的数据只能由您组织内的人访问,并且您的数据只能在您的组织内传输和存在,因此不仅可以防止对您的数据的意外访问,还可以防止数据外泄。

现在,正如我们所知,我们正在进行复制,因此我们有了第二个副本。您可以将其称为防勒索软件就绪副本或合规副本,您会注意到这里的边界略小一些。这是因为我们在原始数据边界提供的粗粒度控制之上,叠加了额外的细粒度控制、身份和网络控制。现在,可以访问和更新该第二个副本的主体和资源数量大大减少了。

网络空气间隙在哪里?因为几乎有一条直线穿过那里。您将引入一些中断,以提供对该第二个副本的访问的计算实例。您可以使用实例调度或亚马逊云科技调度这些资源的启动和关闭。您将其置于备份管理员的管理域之外,通常是为了实现职责分离,但我们确实有一些客户手动启动和关闭这些资源,因为该副本通常是他们针对勒索软件的最后一道防线,因此他们可能每月只更新一次。在此期间之外,它将是不可访问的。

如果这一切听起来有点太多,我很自豪地宣布,空气间隙保护现已在亚马逊云科技上推出。空气间隙保护是一个轻松获得安全、不可变、隔离存储来存放您的干净备份的按钮。

空气间隙保护建立在Amazon S3之上,因此您可以获得业界领先的性能、可扩展性和安全性,但最重要的是

空气间隙保护建立在Amazon S3之上,因此您可以获得业界领先的性能、可扩展性和安全性,但最重要的是,您可以获得11个9的数据持久性,因此当您需要恢复时,您的数据将存在并可访问。空气间隙保护中的所有数据都保持不可变,以防止意外和恶意删除,这几乎是我所看到的每个网络安全框架中关于勒索软件准备的建议,而且您的数据始终使用您自己的Amazon密钥进行加密。

您无需为空气间隙保护设置任何内容,因此没有帐户、角色或凭据。Commvault为您处理所有这些,因此您可以专注于为客户创新,同时保持受保护。我真的很想将其视为一种运营空气间隙,因为您可以获得快速备份和恢复到由S3支持的存储位置的好处,但所有确保该位置免受网络攻击或坏人影响的操作负担都由Commvault承担。

接下来是我们的另一个最佳实践 - 测试。正如Mike非常清楚地指出的那样,无论是在这次展会上还是在演示中,测试都是一个共同主题。在座的各位,有谁定期测试生产应用程序的恢复?几乎没有人举手。好吧,那些举手的人值得表扬,因为对于没有举手的人来说,显然讨论这个问题会有一些价值。

听着,我们称之为测试恢复以应对关键时刻。当关键时刻到来时,您希望能够出色应对。当恢复日到来时,您希望这几乎是一件无聊的事情。您希望已经做过很多次,以至于知道结果,这就是测试的目标。

在今天的主题演讲中,他们谈到了变化是持续的,并为可用性构建应用程序,您的应用程序将继续从Canva所说的整体架构发展到微服务。测试将确保您在整个生命周期内都受到保护并可恢复。

我很高兴地宣布,在我们的下一个版本中将提供洁净室恢复。它就在眼前,今天我将向您展示我们实验室的一个演示。洁净室恢复真正旨在加强您的勒索软件准备,但几乎是您的网络恢复准备。通过在安全、安全的按需位置执行重复的定期恢复测试,您可以提高整个组织的网络恢复能力。

目标非常简单 - 缩短平均恢复时间。这意味着获取比特流,但也包括您可能或可能没有记录下来的所有手动流程。我们的目标是尽可能为您自动化这一过程,以便您可以专注于重新启动应用程序。在我们今天的示例中,我们将在按需EC2资源中进行操作,这可以降低成本,因为您只需为使用时的资源付费。洁净室将在测试完成后自动为您拆除所有这些资源,包括您恢复的资源和其他一些资源。

当我自己从事运营工作时,我每年都会外出一次测试我们的灾难恢复计划。我无法为所有应用程序订阅,因此我只订阅了一部分,我有两天时间来恢复它们。我为此准备了六个月的运行手册,并尝试恢复关键应用程序。如果有任何失败,我会当时尝试修复,但如果时间不够,我只需将其记录下来,并在整整12个月后的下次测试之前想出一个答案。

如果我有了洁净室,我可以持续恢复并能够向业务部门确认我可以在他们期望的时间内恢复。这将是一个完全改变游戏规则的举措,我将有能力测试我的整个应用程序环境,而不仅仅是一小部分。

Mike还谈到了另一种恢复,即取证恢复,即在发生违规或可疑活动时了解环境发生的情况的能力。这就是取证恢复发挥作用的地方。它允许您的生产应用程序在调查进行时并行启动,然后您可以在这个安全的洁净空间中识别补救措施,远离生产环境,然后将其应用到生产环境中。取证恢复与其他恢复类型完全相同 - 完成后它将拆除资源。

让我们通过一个恢复来演示一下,因为幻灯片形式很难看清楚。这个环境只有72%的成功率,所以显然需要更多测试。

我们将从恢复Commvault控制平面开始,一旦准备就绪,它将为我们提供临时凭据,我们将登录。这看起来就像您的生产Commvault系统,只是不是 - 它仅用于恢复测试,因为它将在测试后被拆除。

一旦我们的系统启动,我们现在已登录并可以开始配置要测试的应用程序。在这种情况下,我们将在us-east-1中添加一个取证应用程序恢复,选择我们的可用区域和一个非常严格的安全组,以确保人们无法进入此应用程序,而此应用程序也无法访问外部。

我们的安全事件发生在这里的10月29日,因此我们将回滚到10月29日。这是一个非常简单的两层应用程序 - 它有一个数据库和一个应用程序。它们将按顺序恢复,这是洁净室为我们做的。我可以看到应用程序所有者为我们提供了一个自动化运行手册,用于在恢复后验证应用程序是否正常运行。

它已恢复。现在我们可以进入控制台,我们可以看到这两个计算实例都已在我们配置的us-east-1中启动,我们现在可以访问该应用程序并开始调查。

需要进一步调查 - 这个应用程序显然已被感染。幸运的是,我们已将其恢复到安全工具帐户,因此我们对其实施了如此多的控制,以至于它不会在组织内或进入我们其他相邻的生产应用程序中游荡。

这是对洁净室的绝对速成演示。它很棒,但并非所有恢复都只包含EC2实例。随着我们将应用程序现代化,我们可能会从计算转向容器再到Lambda函数。有许多动态资源有助于我们的应用程序在云环境中运行,在那里一切都会随时发生故障。对于观看了主题演讲的人来说,一切都会随时发生故障,因此要为它们的失败做好计划,如果您为此做好了计划,那么就不会发生故障。这就是我们在所有这些测试中所做的。

具体来说,对于由许多服务组成的动态应用程序,您需要对应用程序及其依赖关系、元数据和状态有更多了解,以充分保持较低的平均恢复时间。

我很高兴地宣布,Cloud Rewind现已成为Commvault云家族的一部分。Cloud Rewind以前称为Atronics。这是Commvault最近收购的一家公司,我们进行了这次收购是因为我们意识到并看到了行业中客户希望保护新一波现代应用程序的趋势。您中的一些人可能已经开始了,但现实是,我们确实开始看到企业采用云优先方法的快速增长,当前的保护方法无法捕获他们快速恢复所需的一切。

Cloud Rewind在业内是独一无二的,因为它不断发现和检测您的数据以及应用程序的所有依赖资源或相关资源,以及它们的相关配置或元数据,并对其进行保护。目标是允许您在需要恢复整个应用程序或需要将其移动到新位置,甚至在另一个帐户或区域中测试恢复时重新构建这些应用程序。

这听起来很简单,但对于这些应用程序来说,由于它们分布在如此多的服务中,这可能是一个非常具有挑战性的过程,需要网络、安全等多个团队协调。我们在这里的目标与之前完全相同 - 我们旨在缩短复杂多服务应用程序的平均恢复时间。在今天的主题演讲中,有一个很好的例子说明,虽然自行车是最佳答案,但它们确实存在固有的复杂性,需要使它们更加功能化。

现在,挑战在于,是的,这是事实,但在恢复所有这些资源时,确实会变得有些复杂。幸运的是,通过Cloud Rewind,我们已经为您简化了这一过程。Cloud Rewind的秘密武器是基础架构即代码。它将发现这些资源,保护它们及其元数据和状态,以便可以使用CloudFormation重建它们,即使您最初没有使用CloudFormation部署应用程序。Cloud Rewind将为您生成和合成CloudFormation模板以进行恢复,让您能够再次部署整个应用程序,以执行弹性测试或对更大型应用程序进行定期恢复测试。

为什么要解决这个问题?对于长期保护应用程序的人来说,您会知道不仅需要了解应用程序内部的依赖关系(这是最简单的部分),还需要发现和了解所有外部依赖关系,以及可能需要启动它们的顺序。这项工作永无止境,因为我们从未在同一个地方记录下来 - 它们存在于文本文件、配置文件、Excel电子表格、电子邮件中,或者只是组织内部的部落知识,或者您可能根本不知道。

当我在澳大利亚的一家大型电信公司工作时,我们不断评估和重新评估应用程序的依赖关系,以便在发生严重事件时,我们知道是否可以恢复这些应用程序。对于拥有300多个应用程序的平均组织来说,这是一项艰巨的工作。

我们一直在使用可组合应用程序和动态应用程序等术语。您从单体基础架构开始解决这个问题——应该很容易,对吗?一切都在一台服务器上,或者是一个三层应用程序,包括Web、应用程序和数据库——相当容易理解。

但是,随着您开始现代化并使用Amazon服务或您自己的微服务替换组件,您的应用程序配置映射和依赖关系映射会变得非常庞大。由于今天主旨演讲中提到的不断演进,这将持续变化,这正是需要Cloud Rewind的原因——它旨在解决这个问题。

让我们举一个非常基本的应用程序示例,因为深入探讨不会有助于解释。我们有客户端访问一个跨多个可用区域的高可用Web应用程序。Route 53将它们定向到本地实例,然后由负载均衡器将它们定向到健康资源——在这种情况下,是一组由自动伸缩组封装的EC2实例,以便应用程序可以响应负载。一些持久数据被写入数据库和S3,加上一些安全态势定义了谁可以在什么端口和协议上与什么通信。

保护这种应用程序的传统方式只是在发生故障事件时保护和恢复那些资源——屏幕上不再显示的所有内容。假设应用程序所有者或开发人员知道所有这些在哪里,并且可以在发生故障时按需重建。

这从来都不是成功的场景,因为他们通常不知道,或者上次记录是在3个月前,或者最初构建它的人已经不在组织中了。您所面临的是一个“需要组装”的事件,在这种情况下,这些部分恢复的组件被抛给应用程序所有者,并且他们实际上被要求在故障事件期间重建应用程序。我曾在大型电信公司参与过这种情况,我们会有60人参加电话会议——内部员工、至少3家外部公司负责——每个人都在争论恢复顺序、下一步是什么以及谁来签署哪一步。所有这些都会延迟将应用程序交还给您的客户或用户。

需要采用一种新的方法,因此Cloud Rewind持续发现和检测您的分布式或可组合应用程序的持久数据和所有元数据,并将其编码为CloudFormation,允许您执行我们所称的“恢复即代码”。

我特别喜欢这一点,因为它与您组织的控制相挂钩。如果有人曾试图让一个应用程序通过验收来在组织中运行,许多这些检查都是为了确保您与现有的治理框架相吻合,以便他们知道他们可以观察和控制您的行为。如果您使用CloudFormation挂钩,您可以收到通知或特别停止部署违反您的操作、安全或成本控制的资源。这是非常重要的——它意味着随着您的业务发展并制定新的控制措施,它们将自动应用于Cloud Rewind所执行的恢复。您的治理、安全和GRC团队会喜欢您的。

还有一件事几乎同等重要,那就是开发人员可以反向工作的能力。如果您目前没有使用CloudFormation或没有在整个应用程序中一致地使用它,这是您可以通过Cloud Rewind进行迭代和改进的事情。不要等到发生故障事件——您可以从Cloud Rewind获取CloudFormation,并开始将基础架构作为代码集成到您的管道中,以真正加快恢复过程。

我将把话筒交还给Mike,让他讲解最后一个最佳实践。

太棒了!谢谢Matt。谁参加了周一晚上的主旨演讲?如果我不得不用一个词来概括的话,Matt,那个词会是什么?以’s’开头?是的,就是规模。

它谈到了聚合超级集群,试图弄清楚如何连接所有电缆,以便它们能以人类可能的最快速度工作。规模——作为一家长期从事的公司,思考传统的备份和恢复,它根本无法满足规模需求,我们知道必须做出改变。这就是事件驱动真正发挥作用的地方。

整个过程中另一个潜在主题是成本,因为您不能不计成本地做任何事情。当我们思考规模时,您会遇到所有这些额外的挑战——不断努力更快地做事、速度和性能、恢复时间目标和恢复点目标、导致破坏的新威胁向量、实施的混合团队(如DevOps、CloudOps、FinOps)、人工操作和错误,加上我们在努力完成工作时熟悉的传统法规,如DORA等。我们必须考虑所有这些支柱,而成本贯穿其中,因为我们必须考虑如何最有效地花费资金来做诸如频繁测试之类的事情。

当我们谈到扩展时,这些挑战会成指数级增长,这就是事件驱动真正发挥作用的地方。让我们看看一个拥有多个工作负载的传统亚马逊云科技客户。我过于简化了Clumio架构,希望您会感到失望,并直接前往Clumio展位获取所有细节。但归根结底,我们正在使用CloudFormation或Terraform在Clumio安全保管库中创建一个完全隔离的环境。当发生数据保护和弹性任务时,它会启动lambda函数、执行工作,然后将它们关闭。因此,当事件发生时,我们会启动所需的资源——如果需要很多,我们会启动很多——而一旦任务完成,我们就会将它们全部关闭,从而变得非常经济高效。

这是一个范式转变,与传统的Commvault云相比,这是平台未来运作方式的演进。如我所说,Clumio是我们今年的第二次收购,专门为S3和DynamoDB提供自主备份和快速恢复。希望您昨天参加了Wun的会议,他们在那里推出了Backtrack,这是我们轻松回滚S3中发生的事务的方式——真是很酷的技术。

Clumio的另一个很酷的地方在于,它的架构如何扫描所有账户和区域,提供类似于我提到的Sony的差距分析,我们在亚马逊云科技中拥有这个单一窗口视图,可以查看所有这些组件,以便对它们进行保护。希望我们不需要恢复它们,但是一旦需要,我们可以高效地大规模恢复。

我知道我们一直在强调合规性和标准,但是无论您使用哪些产品组合,这些都是重中之重——确保持续监控,优化数据的存放位置。

一些快速总结——确认您始终保护无法轻易重新创建的所有数据。如有疑问,请全部保护,但您可以使用这些工具来真正了解您的数据足迹是什么样的,也许有一些您不需要保护的数据。

为您的应用程序数据和元数据建立一个空隙,保持这种分离以最小化影响范围。测试、测试、测试——我再次强调这一点。每个人都应该尽可能频繁地进行测试,并利用这些功能以非常经济的方式做到这一点,并为灾难来临时做好准备。

采用按需重建方法,如Cloud Rewind,因此即使您没有任何其他资源,您仍然可以在其他地方重建您的现代应用程序。随着您的数据增长和恢复点目标缩短,请考虑采用事件驱动架构等功能,以便您可以相应地获得这些规模要素。

一些其他资源——您可以访问AWSMarketplace并获取CommvaultCloud,或访问我们的主网站。我们将结束,如果有任何问题,请留下来。感谢您今天抽出时间,谢谢!

下面是一些演讲现场的精彩瞬间:

演讲者强调了网络恢复能力的重要性,即预测、抵御、从网络威胁和不利环境中恢复并适应的能力。

d29d03a409f155686aafece5e4f125ac.png

亚马逊云科技推出了Clean Rooms,这是一个安全隔离的环境,用于恢复包含敏感数据的应用程序,确保数据隔离并符合行业法规。

f8d46a955255e60e6e23372513bf222c.png

亚马逊云科技 Cloud Rewind利用基础设施即代码来发现、保护和重建资源,实现大型应用程序的恢复能力测试和定期恢复测试。

e9ff6b980da47ac33137dfaecfe2b29a.png

亚马逊云科技 Cloud Formation钩子可以自动执行组织控制,确保在资源部署期间遵守安全、成本和治理政策。

0f63ebd2446dc1ca7e00b1d11cde08ce.png

强调了在现代云环境中,在平衡各种运营挑战、法规和频繁测试需求的同时,优化成本和高效利用资源的重要性。

63894e060aec952266192d5daab48661.png

Clumio展示了他们的事件驱动架构,利用亚马逊云科技服务如EventBridge和Lambda,提供了经济高效且可扩展的数据保护和恢复能力解决方案。

a14f18070ac6e068385f59a4b4e7163a.png

采用“按需重建”的方法,借助Cloud Rewind,即使没有现有基础设施,也可以在其他地方重建现代应用程序,并随着数据增长和RPO要求的收紧,通过事件驱动架构和生产进行扩展。

fad108a19086dfd1cc362e240cae47f6.png

总结

在这个富有洞见的演讲中,Michael Sulo和Matthew Erickson来自Commvault,深入探讨了在云时代实现网络准备、恢复和重建的关键最佳实践。他们强调了网络恢复力的至关重要性——预测、抵御、从不利条件和威胁中恢复并适应的能力。

首先,他们强调建立不可变的虚拟空气间隙、利用快照、独立于服务的备份和网络空气间隙来创建安全、隔离的数据和metadata副本的重要性。这种纵深防御方法确保了数据保护,并在发生网络攻击或灾难时能够快速恢复。

其次,他们强调通过定期的“游戏日”测试恢复过程的重要性,并介绍了Commvault的Clean Room Recovery解决方案。这种创新产品允许组织在安全、按需的环境中重复进行恢复测试,缩短平均恢复时间并增强整体网络恢复力。

第三,他们推出了Cloud Rewind,这是一种强大的工具,可以持续发现、保护和重建使用基础设施即代码的现代可组合应用程序。通过编码应用程序依赖关系和metadata,Cloud Rewind实现了高效的“恢复即代码”,确保治理、安全性和成本控制无缝集成到恢复过程中。

最后,他们介绍了Commvault的事件驱动、自主备份和恢复解决方案Clumio,旨在解决云中规模、成本和合规性的挑战。凭借其无服务器架构和持续监控,Clumio提供了高效、经济的大规模数据保护和恢复,确保组织能够满足严格的监管要求,同时最大限度地减少运营开销。

总之,Sulo和Erickson的演讲强调采用全面、多层次的网络恢复力方法的必要性,强调了不可变空气间隙、持续测试、应用程序恢复意识和可扩展、事件驱动架构的重要性。通过采用这些最佳实践,组织可以加强防御、最小化恢复时间,并在不断演变的网络威胁面前保持业务连续性。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值