数字化运营现代化:提高效率和增强韧性

数字化运营现代化:提高效率和增强韧性

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, PagerDuty, Digital Operations Modernization, Efficiency Improvement, Resilience Enhancement, Unplanned Work Automation, Artificial Intelligence Operations]

导读

高客户期望和日益分布式的系统意味着数字服务的中断可能对收入、品牌声誉和成本产生灾难性影响。在这场专题讨论中,听顶级企业领导者分享他们如何与PagerDuty合作,以现代化数字运营来降低业务风险,同时释放效率并加速生产力。了解团队如何通过最少的人工干预来自动化问题解决——提高系统弹性和团队能力,同时减轻运营复杂性带来的压力。获取关于AI和自动化如何为团队减少不必要工作的见解,使他们能够专注于创造业务价值。本演讲由亚马逊云科技合作伙伴PagerDuty为您呈现。

演讲精华

以下是小编为您整理的本次演讲的精华。

会议开始时,Jonathan Rendy作为亚马逊云科技产品高级副总裁,向与会者表示热烈欢迎。他很荣幸邀请到Trimble技术副总裁Jacob Osterman和Sling TV事故管理执行总监Shawn Arlij作为本次活动的演讲嘉宾。Jonathan Rendy强调,讨论将围绕现代化数字运营以提高效率和弹性,这是当今快速发展的技术环境中一个至关重要的话题。

Jacob Osterman是一位瑞典人,他阐述了自己作为财富500强公司Trimble数字化转型和横向工程副总裁的职责。Trimble的主要重点是帮助建筑、运输和农业等传统行业从实体领域过渡到数字世界。通过提供尖端技术解决方案,为客户提高生产力、安全性和环境可持续性。Jacob的职责包括领导Trimble数字生态系统的转型,确保与公司的无缝连接和业务运营的流程优化。此外,他还负责常见的工程职能和业务系统,包括云运营、云平台和各种其他站点可靠性工程(SRE)职责。

Sling TV事故管理执行总监Shawn Arlij阐明了他角色的动态性质,过去一年发生了重大变化。他承认人工智能(AI)在行业内的重要性日益增加,并指出今年的会议在利用AI方面采取了比去年更实质性的方法,而不是过于仓促地整合。Shawn的职责范围包括为Sling TV(一个尖端的Over-the-Top(OTT)平台)和Dish广播(一家传统的卫星电视业务)管理事故管理运营。管理这两个不同领域的事故具有独特的复杂性,因为技术堆栈和运营挑战差异很大。对于Sling TV而言,AIOps功能至关重要,因为它能够将事故响应时间从几分钟缩短到几秒钟,这对于处理引起观众热烈反应的直播内容至关重要。

在谈到处理未计划工作的组织结构时,Jacob Osterman解释说,Trimble采用了一个集中的团队来处理一级和二级支持,升级问题会被转交给各个部门的相关专家。鉴于公司拥有超过500个面向客户的应用程序,确保及时与正确的人员在正确的时区接触至关重要。虽然三级支持部分集中化,但四级支持在整个组织中更加分散。

Shawn Arlij在Sling TV也采取了类似的方法,之前独立的Sling和Dish业务已经内部合并,形成了一个统一的站点可靠性工程(SRE)和DevOps模型。在这个模型中,服务所有者和工程师维护各自的代码、服务和服务器,同时与事故管理团队同时收到关键警报。这种并行通知过程对于避免事故响应延迟至关重要。Shawn强调事故管理的实用性,承认完美是一个难以实现的目标,这个过程往往伴随着失败和从错误中学习。他回忆说,Sling TV最初将PagerDuty仅作为一个联系人目录,拨打其中列出的电话号码,后来才转向专注于简化参与、沟通和自动化重复性任务。

过去一年,两家公司都遇到了严重的中断,考验了它们的事故响应能力。Jacob Osterman回忆起Crowdstrike事件,该事件同时影响了Trimble数百个应用程序,造成了混乱局面,需要公司CEO的介入。尽管围绕该事件是安全漏洞还是云相关问题存在困惑,但Trimble通过PagerDuty的自动化升级工作流程及时提醒并召集了各地的相关人员,发挥了宝贵作用。

Shawn Arlij承认,虽然Sling TV遵循良好的开发原则并根据ITIL(信息技术基础设施库)模型在事故后进行回顾,但由于系统的不断变更和更新,事故在所难免。他举了一个最近的例子,在一个没有实施任何变更的节假日周,事故几乎没有发生,但一旦引入变更,事故就会随之而来。Sling TV面临的一个持续挑战是尽早发现问题,尽管已经实施了可观察性工具和监控系统。通常,问题源于不充分的检测、不当的严重性设置或噪音水平过高而掩盖了潜在问题。Shawn强调了解决不同团队和服务之间由于分散的监控工具而导致的盲点的重要性,因为一个团队的疏忽可能会对下游服务产生级联影响,最终影响到最终用户。

在采用AI和自动化方面,两位演讲者都倡导以解决工程师痛点为中心的实验心态,而不是先引入技术本身。Jacob Osterman警告不要被AI的炒作所迷惑,指出供应商往往夸大了潜在的生产力提升,实际上像GitHub Copilot这样的工具可能只能带来8%到10%的提升,而不是宣称的50%或更高。他强调通过教育和培训来促进采用,而不是设定任意的AI使用目标。

Shawn Arlij也表达了类似的观点,承认在引入AI和自动化时,工程师可能会担心工作安全问题。他主张采取渐进式方法,关注这些技术如何能够通过自动化重复性任务和减少手动干预来减轻工程师的负担。Sling TV已经采用了创新实践,如黑客马拉松,团队越来越多地参与与AI相关的项目。然而,Shawn承认由于组织内缺乏集体理解和现实期望,很难为AI采用设定具体的关键绩效指标(KPI)或目标。

两家公司都在积极探索使用生成式AI代理,尤其是在客户支持(Trimble)和营销(Sling TV)等领域。Jacob Osterman强调代理作为与AI驱动系统交互的用户友好界面的潜力,指出它们适用于特定用例,如在Dreamforce生态系统中利用Salesforce数据。然而,他警告说,AI代理的有效性与底层数据的质量和相关性密切相关,建议行业特定的AI解决方案可能优于通用产品。

展望未来一年,Jacob Osterman概述了Trimble的“连接和扩展”战略重点,即利用公司的规模将产品和服务相互连接。一个关键目标是采用通用数据平台和处理框架,实现Trimble生态系统内部的更好集成和数据共享。该计划旨在向各利益相关方公开有意义的信息,摆脱个别应用程序内的数据孤岛。此外,Trimble还设定了让90%的工程师积极使用GitHub的目标,认识到它为新收购的团队(可能使用不同的技术堆栈)提供的价值。

Shawn Arlij强调Sling TV的目标是将AI实验运营化,并将其过渡到生产环境。这涉及到在一级团队中实现更广泛的采用,而不仅限于他的团队中的一小群专家。这一努力的关键方面是明确目标和预期结果,如缩短事故解决时间(TTR)和事故确认时间(TTA)。Shawn承认需要通过关注运营模式的变化和预期结果来吸引高层领导的参与,而不是直接引入AI技术本身,后者可能会引发先入为主的观念或偏见。

两位演讲者都为着手企业云运营之旅的组织提供了宝贵建议。Jacob Osterman警告不要在推出新技术之前追求完美,而是主张采取迭代方法,接受错误并允许持续改进。他鼓励尝试新技术如AI,庆祝小小的胜利,并在工程师和运营团队中培养兴奋感。

Shawn Arlij强调了技术变革中“人力方面”的重要性,建议不要过于迷恋技术本身。他强调需要了解团队的经历,识别潜在障碍,并在推进技术进步的同时促进组织变革。Shawn的团队积极讨论变革曲线,承认个人可能会经历从最初的兴奋到潜在的沮丧或绝望的各个阶段,最终接受新的常态。开放式沟通和同理心对于成功应对这些过渡至关重要。

总而言之,此次会议为大型企业如Trimble和Sling TV在数字化运营现代化方面提供了宝贵见解。演讲者强调了通过实验性思维、解决工程师的痛点以及培养持续学习来利用人工智能和自动化的重要性。他们强调了在技术创新与组织变革管理之间保持平衡的必要性,重点关注转型的“人力资源”方面。通过采用迭代方法、庆祝小小胜利并促进开放沟通,组织可以顺利应对数字化运营现代化的复杂性,同时提高效率和弹性。

下面是一些演讲现场的精彩瞬间:

演讲者幽默地邀请观众留下来学习,即使他们并非专门寻求通过数字化运营实现效率和弹性。

86779261fbaef07a7b14a28a6d770aae.png

强调了AIOps在事件管理中的重要性,可将响应时间从几分钟缩短到几秒钟,这在直播体育和娱乐活动等对时间敏感的场景中至关重要。

3ff5ef823ec04cdc25bbfff296a16afc.png

强调了在公司转型过程中,有效沟通和为工程师创造空间以快速解决客户问题的重要性。

c7a5f0a135e5efaf07a959ba7163bfa5.png

拥抱AIOps和自动化,可以解放工程师免于重启系统等繁琐任务,让他们在事故发生时专注于更关键的问题。

638a95cca17dbcc877177fb05e95dca2.png

一位谦逊的高管分享了通过技术、流程优化和组织重组来推动运营效率的历程,同时保持了客户体验并降低了成本。

ecc6533000e598994b9181198d764d4d.png

就如何通过专注于现实目标和渐进式采用来最大化技术投资价值的挑战进行了坦率的讨论。

bdd720773d00a635a6ece1cdd580360c.png

总结

在瞬息万变的数字化时代,现代化运营对于提高效率和增强弹性至关重要。本文探讨了Trimble公司的Jacob Osterman和Sling TV公司的Sean Arlij在数字化转型和事件管理方面的经验。

作为Trimble公司数字化转型的副总裁,Jacob负责监督其数字生态系统的现代化,确保无缝连接和流畅运营。他强调拥抱新技术(如人工智能和自动化)的重要性,同时也承认随之而来的复杂性带来的挑战。Jacob强调需要采用集中式的事件管理方法,利用PagerDuty等工具及时将问题升级给相关团队。

Sling TV公司事件管理执行总监Sean分享了他在管理不同技术栈事件方面的见解。他强调可观测性和基于人工智能的解决方案在缩短解决时间方面的重要性,尤其是在秒钟可能产生深远影响的高风险场景中。Sean的团队经历了一次转型之旅,从手动流程过渡到自动化工作流程,使他们能够在保持卓越客户服务的同时,用更少的资源做更多的事情。

Jacob和Sean都强调培养实验和持续学习文化的重要性。他们强调从小处着手、迭代并在过程中庆祝胜利。最关键的是,他们强调人在推动变革中的关键作用,主张开放式沟通、理解个人经历并解决潜在的采用障碍。

随着数字化时代的不断演进,拥抱现代化、利用人工智能和自动化以及优先考虑以人为本的方法,将是实现运营卓越、提高效率并在面临中断时增强弹性的关键所在。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值