转译声明:本报告转译自《The Forrester Wave™: Artificial Intelligence For IT Operations, Q4 2022》
摘要:
根据AIOps软件供应商提供的35项标准评测,我们筛选并确定了11家最具代表性的公司。这些公司包括Datadog、Digitate、Dynatrace、Elastic、LogicMonitor、Micro Focus、New Relic、OpsRamp、ScienceLogic、Splunk和Zenoss。我们对这些公司进行了深入的研究和分析,并对它们进行了评分。这份报告详细地展示了每家供应商在评测中的表现,旨在帮助技术专业人士根据他们的需求,从这些领先的AIOps解决方案中选择最合适的解决方案。
▐ 对多样化数据进行情境处理,能够增强观测力并实现自动化
随着IT系统变得越来越复杂,监控数据量呈现指数级增长,企业对于通过应用AI和ML来提高商业观测力的需求日益增长。不同机构在使用AIOps时采取了多样化的策略,无论是“以技术为中心”的供应商(Technology-Centric Vendor ),还是“以流程为中心”的供应商(Process-Centric Vendor ),他们的核心目标都是提升观测力。
在评测的过程中,我们注意到那些“以技术为中心”的供应商展现出了卓越的数据采集和分析能力,这些能力能够适应企业不断变化的需求。 对于AIOps的实施来说,能否在动态变化的环境中灵活部署,并实时监控多样化的技术堆栈,是衡量其能否为企业带来实质性价值的关键。同时,对环境上下文(Contextual )和用户体验数据(RUM)收集的进一步改进,不仅拓宽了观测力的覆盖范围,还将其从简单的技术管理层面扩展到了用户端点和体验层面。
基于这些趋势,AIOps的潜在用户在选择服务供应商时,供应商应具备以下特性:
-
提供广泛的AIOps能力,没有重大缺陷。那些寻求从主机到移动设备跨技术栈的深度实时洞察和自动修复能力的组织,不能在AIOps功能上有缺陷。即使在几个功能上存在显著缺陷,也可能使AIOps解决方案受到限制,并需要定期维护的昂贵集成。AIOps系统本身如果具备强大的功能够减少技术债务,开箱即用的插件库能力能够减少定制开发的成本。
-
提供透明且值得依赖的自动修复功能。自动修复在很大程度上受限于企业买家对供应商解决方案透明度的怀疑。目前,企业成功实施了自动化解决方案,用来处理简单、重复的操作任务和常规的修复工作,但对于推进那些更高可靠性测试的复杂操作自动化方面,进展较为缓慢。深入理解AI/ML引擎如何利用感知和遥测数据,将有助于提升这些技术的应用接受度。为了实现这个目标,解决方案需要清晰地展示其自动化决策的依据和执行过程,以此消除用户的疑虑,建立客户对自动化操作的信任,并推动解决方案的更广泛应用。
-
从交易开始到结束,提供洞察力。真正改善用户体验,减少平均解决时间(MTTR)和平均识别时间(MTTI),并最终实现业务增长,必须从关注用户体验开始。必须从用户的角度出发识别服务性能降级或中断,而不仅仅是从基础设施的角度。业务环境和周期、使用模式以及历史趋势,是主动解决可能对用户体验产生负面影响的关键数据元素。解决方案需要实时处理这些信息,并将这些元素提供给架构、开发和设计团队,以优化核心系统。
▐ 评测摘要
Forrester Wave™评测对市场上的领导者(Leaders )、强势表现者( Strong Performers )、有力竞争者(Contenders)和挑战者(Challengers )进行了专门评测。这是对市场上顶尖供应商的评测,它并不能代表所有供应商的情况。您可以在《Now Tech: Artificial Intelligence For IT Operations, Q2 2022》中找到关于这个市场的更多信息。
我们希望这项评测只是一个起点,并鼓励客户查看产品评测,并使用基于Excel的供应商比较工具(见图1和图2)调整标准权重。


▐ 供应商提供的产品/服务
Forrester 在这项评测中包括了 11 家供应商:Datadog、Digitate、Dynatrace、Elastic、LogicMonitor、Micro Focus、New Relic、OpsRamp、ScienceLogic、Splunk 和 Zenoss(见图3)。

▐ 供应商简介
我们的分析报告将会为大家揭示各家供应商的优势和劣势。
领导者(Leaders)
-
Dynatrace 提供全栈(Full-Stack)业务可观测能力,其根源可以追溯到应用性能管理 (APM)。Dynatrace 拥有深厚的应用性能管理(APM)背景,提供了全面的业务观测力。作为一个企业级平台,Dynatrace拥有一个内容丰富的数据模型,旨在满足全球客户群的需求。其卓越的愿景在于利用其统一的数据模型、人工智能(AI)技术和为特定用途设计的自动化用例,来实现可操作性追踪和大规模分析,特别是在基础设施领域,这些功能展现了其产品路线图的独特优势。Dynatrace规划中的高级功能同样具有特色,其中包括数据湖(Data Lake House )和Dynatrace查询语言(DQL),它们共同构成了一种并行处理解决方案。这一方案结合了图形、事件、指标和其他类型的数据,用于支持因果 AI(Causal AI,)、可观测性(Observability )和安全(Security )用例。此外,Dynatrace的客户还能从其由因果关系驱动的Davis AI引擎中获益,该引擎通过会话重放(Session replay )功能,能够像视频一样记录用户在移动应用和网站上的行为,从而帮助客户进行操作改进,如事件响应和根因分析。该解决方案的可用性保持了高度的灵活性,并能够根据工作上下文向从业者展示所需的数据。Dynatrace的其他优势包括原生数字体验监控(DEM)、服务映射(Service Mapping )、分布式追踪(Distributed Tracing)和应用诊断( Application Diagnostics )。参考客户赞扬了系统的功能广泛以及使用 OneAgent 方法的简单部署,这有助于减少技术债务。然而,他们认为Dynatrace在网络监控( Network Monitoring )能力方面还有待提升。Dynatrace适用群体:需要高级业务观测力和拥有复杂混合环境的客户,且这些客户希望通过全栈式AIOps来整合他们的技术栈。
-
Datadog在数据观测力和可视化(Data Insights and Visualizations)方面处于行业领先地位。Datadog不断创新的核心动力来自于 21,000 多名客户的反馈,并且这些反馈在产品相关决策中发挥着重要作用。Datadog的优化功能建立在一种左移(Shift-Left)心态上,并且本次评测中数据科学家团队在研发团队中占比较大,他们专注于提升机器学习(Machine Learning)和人工智能(AI)产品。Datadog 拥有强大的创新能力,其中包括 100 多项活跃的产品优化功能;然而,该公司的执行路线图没有体现未来时间表规划的具体细节。无论是自主开发还是通过收购引进,Datadog都会在平台上对新功能进行原生集成或重新构建,以保证它们在发布前能与Datadog现有的所有功能无缝协同工作。虽然这种方法可能成本高昂且耗时,但它进一步证明了Datadog对产品质量的承诺。Watchdog是Datadog的智能层,它能够发现日志中的异常、错误率的激增、查询时的异常标签以及Kubernetes pod的重启等问题,为可操作的可观测性、治理和控制,以及为通过可观测性驱动的安全提供服务。参考客户提到了一些可用性问题,例如有客户表示“它的页面没有那么精致,但我可以使用它,它就是有效的” ,还有客户认为“对于高级用户来说非常好,但对新手来说可能会有些过于复杂”。Datadog平台的互动性很强,但Datadog需要解决易用性问题,以便技术水平较差的技术人员也能充分使用它的功能。参考客户指出,APM 分布式跟踪以及大量可用的集成对他们来说是一个具有变革性的功能。Datadog适用群体:云原生组织以及那些将大部分操作迁移到云端的组织,他们可以在可观察性、开箱即用集成和数据处理能力等方面中受益。
强势表现者( Strong Performers )
-
ScienceLogic在自动化方面表现出强劲的实力,但在应用诊断方面稍显不足。ScienceLogic的愿景是以服务为导向,这与其以客户为导向的战略创新策略相辅相成。例如,ScienceLogic实施了一种客户参与计划,该计划采取了咨询委员会的形式,让客户能够为公司的战略方向提供反馈。参考客户也高度评价了早期采用者和设计合作伙伴计划,这些计划允许客户在产品开发的早期阶段和新版本发布时直接与产品工程团队紧密合作。ScienceLogic 通过引入无代码或低代码的自动化与集成功能,进一步增强了其本已强大的自动化能力,这有助于提升其观测力。ScienceLogic与美国联邦政府(特别是国防部)的合作,提升了ScienceLogic的SL1产品水准,最终让所有客户都能从中受益。ScienceLogic缺乏原生数字体验监控(DEM)和应用性能管理功能(APM),它依赖第三方合作伙伴来提供这些领域的数据。最近对分析公司Zebrium的收购表明,ScienceLogic正在积极寻求解决这一短板的方法。SL1通过检测问题、分析问题并建议适当的补救措施等能力,展示了其在自动化和补救处理方面的强大实力。参考客户指出“尽管该解决方案启动时速度较慢,但一旦运行起来,用户体验非常好”。他们一致提到了ScienceLogic对客户成功的承诺。所有参考客户都与ScienceLogic的C级高管有定期接触,这些高管对客户的反馈持开放态度。ScienceLogic适用群体:寻求一个简单、安全、易于部署,并且能够轻松与各种补充技术集成的解决方案的公司。
-
Zenoss在动态建模方面表现出色,但在交易监控方面需要提升。Zenoss致力于提供一个超越传统IT监控的观测力平台。Zenoss坚信,只有通过动态的IT服务建模,客户才能实现真正的成功,这一理念受到了那些在构建和维护服务模型方面遇到挑战的组织的高度评价。客户告诉我们,他们经常将Zenoss视为一个值得信赖的顾问,为其提供宝贵的指导。Zenoss享有比较高的客户满意度和保留率,这进一步强化了其作为可信赖伙伴的形象。Zenoss建立了一个强大的合作伙伴网络,与云平台、服务管理、网络和系统集成等市场领先企业有着多种共同开发协议。Zenoss Cloud通过其丰富的技术特定插件库ZenPacks,实现了与多个IT数据源和企业环境的集成。其客户提到“Zenoss在几周内就为一个不常见的设备构建了一个完美的ZenPack,并且这个插件对整个社区都是可用的”。随着越来越多的边缘和物联网设备被引入到操作环境中,这种快速响应和创新的能力将变得至关重要。在交易监控方面,Zenoss目前依赖第三方插件来提供如真实用户监控(RUM)、模拟交易监控(Synthetic transaction monitoring )和模拟网络路径监控(Synthetic network path monitoring )等功能。参考客户对于向Zenoss Cloud迁移的范式转变给予了积极评价。ZenPacks的强大功能和实用性使得某位客户的维护资源量比之前的解决方案减少了80%。Zenoss适用群体:希望找到一个能够提供广泛监控覆盖,包括不常见设备,并且不需要大型工程团队进行维护的企业级合作伙伴的企业。
-
Elastic突破了数据管理能力的极限。Elastic长期以来一直支持和构建开源软件,并继续维持“免费且开放”的模式。这种提供方式允许组织在决定将Elastic作为平台进行财务投资之前,能够充分体验其功能。尽管Elastic的愿景是以技术为核心(Technology-Centric ),但是为了形成一个更全面有力的战略方向,它需要更多地融入用户体验和业务成果;Elastic计划中的优化措施进一步巩固了其以技术为核心的方法Elastic拥有强大的大数据处理能力,故而采用了基于搜索的解决方案,为多种数据类型提供了原生支持。这使得它能够有效地处理和分析庞大的数据集,满足不同用户的需求。Elastic可以实现的核心能力有异常检测、数据关联和大型数据集的交互式建模等。Elastic对容器和编排工具的监控支持非常全面。参考客户表示“强大的日志分析能力和通过仪表板和其他可视化工具对警报进行上下文化是他们选择Elastic的主要原因”。同样这些客户也指出“虽然Elastic的应用性能监控(APM)功能相对较新,但正在快速进步,他们需要进行一些与JSON相关的定制化工作来适配他们的日志”。自动化/修复措施也是Elastic需要进一步改进的领域。客户还注意到“使用Elastic Cloud产品后,系统的可扩展性得到了提升”。Elastic适用群体:坚定支持开源解决方案,并且需要一个基于可扩展、高基数数据存储的解决方案以支持全系统观测的公司。
-
New Relic增加了端点监控功能(Endpoint monitoring ),但可视化方面需要提升。自2020年起,New Relic开始整合数据库NRDB(New Relic Data Base)的存储库,并在2021年推出了New Relic One平台,该平台整合了其分散的可观测性功能。今年,New Relic新增了跨平台功能,旨在结合其各项优势,为工程师提供端到端的体验。公司内部众多数据科学家的努力推动了多个领域的卓越进步。然而,尽管New Relic拥有强有力的优化计划,但其产品特性主要针对工程角色,这在一定程度上限制了其对更广泛用户群体的吸引力。为了解决这一问题,公司转向了一种全面包容的基于消费的定价模型,这有助于缓解许多组织在扩展和复杂性方面遇到的问题。New Relic已经将其能力范围扩展到其核心的应用性能监控(APM)优势之外,以提供全面的数字体验管理能力。在本次评测的供应商中,只有三家支持W3C Trace Context以简化分布式跟踪,New Relic便是供应商之一。为了提高MTTR/MTTI能力,New Relic必须增加上下文信息,以更好地展示对业务运营的影响,并使信息更易于理解。公司的设计和可视化高度专注于为工程人员服务,这使得其界面倾向于数据密集和技术性强,这对工程师是有利的,但可能不会吸引非工程人员,这导致了使用上的困难。New Relic One平台适用群体:为不同的工程团队提供统一平台的企业,使得所有团队都可以利用该平台做出基于数据的工程决策。
-
Splunk可减少告警疲劳,但其原生的自动化功能仍需进一步改进。在过去的几年里,Splunk已经不仅仅是一个数据聚合器和可视化工具的角色。现在它提供了一种集成的解决方案,使得以技术为核心的全栈AIOps(人工智能运维)成为可能。Splunk的ITSI和 Observability 产品共同作用,提供了一个从后端监控到最终用户交互的全面服务视图。然而,企业常常面临一个挑战 —— 难以明确哪些Splunk产品和扩展能提供他们所需的特定功能和能力。在许多情况下,现有的Splunk部署可能局限于其传统的功能,并需要通过其他供应商的产品进行补充。Splunk在服务于政府特定用户群体方面发挥了独特作用,通过用户组的形式促进了不同政府机构和部门之间的用例分享,从而节省了时间和资源。参考客户指出“Splunk是非常透明的,能够提供与产品团队的联系,并始终愿意听取建议 ”。参考客户还谈到Splunk平台的强大功能,它提供了一个集中的“日志和聚合信息的一站式解决方案”。但是,如果不增加Splunk的安全编排、自动化和响应功能,Splunk的自动化产品和补救处理功能是有限的,这对于一些企业来说可能是成本过高的。如果没有On-Call产品,优化功能也是有限的,这可能会阻碍那些更倾向于采用一站式解决方案而不是多个组件解决方案的组织。Splunk适用群体:希望在将数据用于驱动整个领域的操作流程之前,先将数据集中到一个共同位置进行分析处理的企业。
-
OpsRamp在原生感知/遥测数据方面不足,但其强大的自动化平台是其一大优势。该公司非常专注于管理服务供应商(MSP)渠道,同时也关注原始设备制造商(OEM)和全球系统集成商(GSI)。OpsRamp与主要的全球OEM和GSI建立了合作关系,助力他们基于OpsRamp平台转型为MSP。这得益于其模块化、多层次的架构以及在混合监控环境中卓越的集成能力。尽管OpsRamp的合作伙伴生态系统并不像其他供应商那样广泛,但它通过高效的合作伙伴关系将其平台的影响力扩展到其他市场。OpsRamp尚未明确在未来计划中提出优化功能,而参考客户在合作过程中也反映了对未来能力发展规划的期待。与其他规模相近的供应商相比,OpsRamp在AI/ML工程师和数据科学家职位上的投入低于行业平均水平。在与客户的沟通中,一些组织对于依赖外部APM(应用性能管理)工具表示出了担忧。OpsRamp缺乏原生的边缘、物联网和大型机数据收集能力,以及原生和第三方的上下文和体验感知数据。然而,客户对OpsRamp的监控模板给予了高度评价,认为其“即插即用”的特性非常实用。此外,OpsRamp平台在减少告警噪音方面的效果也得到了客户的认可。在高级自动化能力方面,OpsRamp表现出色,这对于希望降低运营成本并提高客户期望的企业来说非常有吸引力,因为它们可以通过更快的响应来实现。OpsRamp适用群体:寻求自动化运营工作或需要其解决方案与各种技术集成的企业。
有力竞争者(Contenders)
-
Digitate 的蓝图(Blueprinting)技术具备优势,但应用程序诊断(Application Diagnostic )弱点明显 。自2015年成立以来,该公司发展显著,并成功确立了自己作为企业AIOps技术供应商的地位。Digitate迅速地从传统的软件销售模式转向了订阅交付模式,这一转变旨在帮助客户更快地实现价值,尽管其定价策略的复杂性仍有待简化。而企业客户数量的增长也反映了订阅模式的有效性,但与我们评测的其他供应商相比,Digitate的客户基础规模仍然较小。尽管如此,Digitate并未充分利用其已建立的全球系统集成商(GSI)渠道来扩大其客户群。因为Digitate对产品优化的承诺十分坚定,已经制定了一个详细的多年发展计划,全面覆盖了平台的各个方面,为公司未来的发展打下了坚实的基础。Digitate将其ignio AIOps平台定位为自主企业设计的闭环系统,它在依赖性和拓扑映射方面表现出色。企业的蓝图使其能够自动适应变化的工作负载,并提供对业务健康状况的观测。自动化和补救处理都是客户可以利用的优势,它们可以在事件响应场景中建议补救措施。这不仅节省了恢复服务的宝贵时间,还降低了平均故障响应时间(MTTR)。为了进一步提升其观测力,Digitate需要扩展其在原生数据和合成监控方面的原生能力。此外,为了满足那些拥有复杂和多样化基础设施的组织的需求,Digitate还需要在应用和基础设施监控的几个关键领域进行改进。Digitate适用群体:专注于工作负载管理和闭环自动化,旨在减少服务请求、改善服务恢复指标和降低IT运营成本的企业。
-
Micro Focus在分布式追踪(Distributed Tracing )方面的能力相对较弱,但其数字体验监控(DEM)的全面实力突出。公司目前面临着一些不确定的未来,这主要是由于OpenText在2022年8月提出的收购提议。这次收购是OpenText在过去五年中进行的10次收购中规模最大的一次。目前看来,两家公司的产品线并无重叠,因此收购对Micro Focus的AIOps产品Operations Bridge的现有计划可能产生的影响尚不明确。Micro Focus的战略愿景并未包含任何革命性的突破,而是专注于对平台进行逐步改进。与同规模的组织相比,Micro Focus在数据科学团队的投资水平较低,这影响了其在渐进性与革命性进步之间的平衡。公司计划中的优化功能旨在为Micro Focus带来差异化的能力,而不仅仅是帮助它追赶竞争对手。时间将证明这次收购是否能够帮助Micro Focus实现这一目标。Micro Focus的产品能够自动将异常、预测和违规行为放入业务上下文中,以便用户可以更好地理解。然而,Micro Focus的缺点在于缺少了分布式追踪所能提供的更详细信息。为了更好地适应当前复杂的运营环境,公司必须扩大对容器和编排工具的监控能力。Micro Focus的分析管道与事件紧密相连,目的是增强知识库并优化平均故障响应时间(MTTR)和平均故障检测时间(MTTI)。目前的产品尚未提供OpenTelemetry的支持,但这一功能已被列入开发路线图。参考客户高度赞扬了平台监控大型服务器和大量协议集的能力。Micro Focus 适用群体:寻求一个需要强大数据观测力、监控和可视化功能的AIOps解决方案的企业。
-
LogicMonitor在应用诊断方面表现出色,但在体验分析方面落后。自2018年起,LogicMonitor在Vista Equity Partnerss的投资支持下,开始了一项为期多年的战略,旨在重塑其现有产品以促进增长。公司还增加了云和云原生服务,旨在构建一个全面的AIOps平台。这一愿景在2022年初推出的LM Envision产品中表现得尤为明显。LogicMonitor在基础设施监控这一核心强项的基础上,建立了强大的应用性能管理(APM)能力,但目前仍在转型阶段。公司对未来规划继续沿着技术发展的道路,但尚未承诺通过改进其在事务监控或体验分析方面的不足来进一步扩展到端点监控。LM Envision能够将应用诊断数据与底层基础设施的数据集成展示,使用户能够在两者之间轻松切换,有助于避免上下文的转换。为了实现自动化处理和自动修复能力,LogicMonitor需要在预测和概率分析方面做出改进。LogicMonitor仅通过软件即服务(SaaS)的形式提供,由供应商决定将客户端实例部署在哪个云环境中。参考客户对LogicMonitor提供的技术支持赞不绝口,有客户表示“LogicMonitor在我们有需要时始终在那里支持我们”,另一位客户则说“支持服务非常出色,响应也很及时”。LogicMonitor适用群体:寻求强大的核心基础设施监控、卓越的应用诊断、传统系统支持、致力于客户成功的承诺,以及已经展现出强劲成果的未来愿景的企业。
▐ 评测总结
我们根据35个标准对供应商进行了评测,并将这35个标准分为三大类别:
-
当前产品力(Current Offering ):Forrester Wave纵轴上的位置,代表了其当前产品的实力。这些解决方案的关键标准,包括遥测数据的采集与保留、依赖性/拓扑映射、数字体验监控、应用和基础设施监控、数据洞察力与可视化、自动化与补救措施,以及平台能力。
-
产品战略(Strategy ):Forrester Wave横轴上的位置,表明了其战略的强度。我们对企业的产品愿景、Roadmap中的高级功能、市场触达、合作伙伴生态系统、执行路线图和商业模式。
-
市场份额(Market presence ):Forrester Wave的图形大小,代表了其市场份额得分,反映了每家供应商的客户数量、产品收入和平均交易规模。
供应商纳入标准
Forrester在其评测中涵盖了11家供应商:Datadog、Digitate、Dynatrace、Elastic、LogicMonitor、Micro Focus、New Relic、OpsRamp、ScienceLogic、Splunk和Zenoss。这些供应商各自具有以下特点:
-
拥有重要的客户群。供应商拥有200多个活跃的付费客户,这些客户正在使用其独立的AIOps解决方案。
-
统一的代码库或用户界面。每个供应商都拥有一个单一的代码库或多个代码库,但都统一在一个用户界面之下。
-
领域无关的互操作性。供应商具备或正在开发与OpenTelemetry兼容的能力,并且至少支持40%的感知/遥测数据类型,这些类型是我们在《Now Tech: Artificial Intelligence For IT Operations, Q2 2022》报告中所识别的。
-
提供独立的AIOps产品。该平台必须是独立的产品,而不是集成了一些AIOps功能的其他产品/平台,也不是依赖于非AIOps核心产品的其他产品/平台,或者是共同提供AIOps能力的一系列产品/平台的组合。
-
与Forrester客户的相关性。供应商的相关性是基于客户对独立AIOps平台的兴趣来确定的,Forrester根据客户的兴趣量来评测供应商的市场相关性。
名词解释
-
MTTR:衡量的是系统或设备在故障后恢复运行所需的平均时间。
-
MTTI:衡量的是在设备出现故障后,到问题首次被识别出来的平均时间。
-
APM:Application Performance Management 的缩写,译为“应用性能管理”。APM 是一种监控和管理应用程序性能的技术。
-
DEM: digital experience monitoring,译为“数字体验监控”。当用户/设备全天候访问各类内部和外部应用时,这种技术可提供网络中最终用户和设备数字体验的详细情况。
-
Technology-Centric Vendor:以技术为中心的AIOps厂商,如 Splunk、Dynatrace 等,这些解决方案提供复杂的分析、异常检测和预测功能,专注数据分析与处理。
-
Process-Centric Vendor:以流程为中心的AIOps厂商,如ServiceNow、BMC等,专注于自动化 IT 服务管理 (ITSM) 和事件响应工作流,帮助客户改善、自动化和创新其业务流程。