• 博客(57)
  • 收藏
  • 关注

转载 可观测性(二)

上一期可观测性文章《可观测性(一)》里面聊了可观测性的定义、价值和三大支柱。其中值得再次提及的是,可观测性的核心目的是以量化的方式管理企业的基础设施(包括中间件等)、平台和应用程序。正所谓 “如果你无法量化它,你就无法管理它” -- 彼得·德鲁克。同时还有一个要点,就是可观测性要完成闭环,终究需要告警管理平台来做连接--将问题指标即时反映给相关维护人员,以解决系统无法自修复的问题,同时提高系统自修复能力。接着这个话题,这期我整理了构建一个优秀的可观测系统需要哪些核心能力。

2022-04-27 10:11:53 658

原创 On-call机制——一种有效运维的方法

对于On-cal这一词,国内并没有特别明确的说法,因为这是个欧美流传过来的叫法。国内与之相接近的意思大致就是值班,再详细一些的说法便是指企业为了快速相应生产故障或者重大事件,在某段时间内指定某个人或者某组人随时待命(类似值班)。在故障发生的一瞬间,会以邮件、短信、电话等形式通知到负责人,以保障第一时间的处理。正所谓,没有零bug的程序,没有零问题的系统,因此互联网技术的发展也是时刻离不开运维的支撑,与此同时,On-call机制的理念也逐渐流行开来,但依旧会存在没能有序但处理:海量的事件淹没了重要事件,

2022-03-09 14:30:54 3539

原创 多变的智能降噪

告警、作为监控的平台的最直观的体现形式,可以体现出被“监控者”的当前状态,你可以看到它是健康十足的平稳状态,亦或是偶尔发出告警的异常状态,甚至是告警癫狂的崩溃状态,这都是最直观的告诉你他是否需要你的方式。但如果没有好的梳理方式,反而会让人没办法正确的发现它此时的情况,今天我们就来说下如何通过智能告警平台Cloud Aler中的智能降噪的功能,实现告警的灵活处理。睿象云智能降噪Cloud Alert中,有三种降噪的类别,分别为:自定义规则降噪、时间窗口智能降噪、实施智能降噪;分为两种降噪方式,一种是单点降噪

2021-11-17 11:30:34 766

原创 创业公司的监控告警需要几个人?一个就够了

一家年轻的互联网初创公司,通过一个好的idea获得了一批用户,当他们的用户增长的时候,就面临一个问题:为了防止服务崩溃,该如何做好监控告警?有统计显示,初创公司服务崩溃带来的用户流失率几乎达到了70%,而对于大公司来说,有80%的用户希望有更好的体验。一家用户至上的创业公司,要在客户发现之前知道服务出了什么问题,就要建立一套强大的监控告警系统!这样就可以避免故障发生,或者把故障影响降到最低了!那么创业公司的监控告警要怎么做呢?监控系统对于公司来说,监控告警系统有两种选择:现成产品或者自研,现成产品

2021-10-29 09:29:46 365

原创 为什么国内很多公司都自主开发监控告警系统?

在互联网企业大行其道的今天,以开源软件为代表的开源文化成为一股不断壮大的潮流,各种开源监控告警系统如zabbix、nagios等也是层出不穷。但奇怪的是,在国内却仍有很多公司选择自主开发监控告警系统,究其原因是什么呢?国外有一个网站叫StackShare,可以查看各公司用了什么产品!比如我们可以看什么公司用了zabbix!在这个网站上可以看到,从亚马逊、谷歌这种顶级公司,到中小型公司都会使用各种开源软件或者SaaS,所以这在国外是非常普遍的情况。但为什么国内就喜欢自主开发监控告警系统呢?关于这个问

2021-10-19 13:59:41 1046 2

原创 为什么都劝运维转开发,却仍看到大批年轻人运维做的风生水起?

当谈到运维职业发展情况时,很多人都会说运维做不长久,然后劝人做两年就赶快转研发吧!总之是全面唱衰运维!但作为一个老运维,我想说的是:运维转开发确实是一个不错的选择,但运维做不长久则完全是对运维的偏见了!很多人有运维做不长久的偏见的原因其实和运维职业的特性有关,运维有三个老生常谈的特点:打杂,背锅,睡的少!说运维打杂,是说运维工作比较宽泛,运维职业门槛不高,什么都得会一点。公司里但凡跟计算机有关的事,可能都会找到运维,这就导致了运维工作比较杂!至于背黑锅,是说运维工作做的好了没人找你,但一旦出问题,所

2021-10-18 08:56:37 5963 5

原创 为什么国内互联网公司喜欢用Centos而不是Ubuntu?

几乎所有新手接触Linux时,都会被它的几百个发行版本搞得一头雾水,在众多Linux 版本中,CentOS 和 Ubuntu 可以说是最有名的两个了,而关于这两者的选择也是大家在网络上经常讨论的问题。比如各大网站都有热门问题:为什么国内互联网公司喜欢用Centos而不是Ubuntu/Debian?作为一个十多年经验,见证了linux的一路发展的老运维,我总结了三点分享给大家:企业选择系统的决定性因素是稳定性,但稳定性的本质是钱,谁的钱多,谁就更稳定!Centos就是Rhel的克隆版,背后是Redha

2021-10-09 15:40:48 1809

原创 运维为什么这么难招?

最近群里的hr朋友总说运维太难招,基本招不到人,作为一个在运维界摸爬滚打10多年的老炮儿,我说:你招不到人是有原因的!因为不只是运维的招聘难,而是两边都难,一边公司招不到人,一边是运维不好找工作!公司招不到人最根本的原因,文明点说就是招聘职位定位不清晰,说不好听的就是心里没点x数!为什么这么说,看看他们的招聘要求就知道了:学历本科及以上!本科以上的干点啥不好,运维能力经验比学历重要多了好嘛!要求具备基本自动化运维开发能力!就这么简单的一句话要学的东西多了去了,有开发能力直接去干开发他不香吗?

2021-09-28 12:41:39 10030 16

原创 从被吐槽的Amazon看,如何建设好的on call机制?

对于每个程序员来说,进入市值万亿的Amazon工作,似乎都是一件值得骄傲的事,但只要在网络上一提起Amazon,关于它的on call 机制的吐槽就会此起彼伏!要知道在互联网公司,on call应该是非常普遍的现象。但大家为什么对Amazon的on call文化如此反感呢?Amazon的on call真的不一般首先是范围广,基本上90%的组都要on call,甚至可以说只要在Amazon做技术基本都有过on call的经历。其次是时间长,基本是每隔x周就要接受一周的on call,x等于团队人数。而

2021-09-06 15:55:33 790

原创 关于告警管理的软件,您还只知道Pagerduty吗?

全面数字化时代,组织业务系统建设复杂,各个服务之间的调用关系多重依赖。一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理挑战重重。传统的监控告警工具和故障处理方式已成为数字化业务系统高效稳定运行的“老大难”。监控告警 就是故障发现的重要一环。当有异常发生时,运维人员常常可以从一些告警中找到蛛丝马迹,但是每天动辄上万条的告警经常都让运维人员无的放矢。从IT运营管理的基本面上来讲,告警事件每天都会发生。那么,与告警相关的各项服务的健康

2021-08-23 14:23:18 523 8

原创 关于飞书的告警通知,这里有个更好的办法

飞书,是字节跳动于2016年自研的新一代一站式协作平台,是保障字节跳动全球五万人高效协作的办公工具。飞书将即时沟通、日历、云文档、云盘和工作台深度整合,通过开放兼容的平台,让成员在一处即可实现高效的沟通和流畅的协作,全方位提升企业效率。2020年2月24日,字节跳动旗下办公套件飞书宣布,向全国所有企业和组织免费开放,不限规模,不限使用时长,所有用户均可使用飞书全部套件功能。越来越多的公司开始使用飞书处理工作事宜,运维团队实现将告警发送到飞书,并通过飞书来进行处理告警,就成为了迫切的需求。睿象云智能告警平C

2021-08-23 13:52:39 981

原创 行业洞察系列之《事件管理的 5 个阶段及其改进建议》

高效的事件管理应该是所有企业业务系统的重要组成部分。为什么这么说?因为随着IT技术、工具和工作流程的日益复杂,以及彼此关联性的日益增加,业务系统越来越容易受到计划外停机的影响。停机可能在任何时候发生在任何系统上,对内部和外部业务运营都会造成潜在影响。停机事故的成本通常以每分钟数万(甚至数十万)美元计算。由于会面临这样的潜在影响,企业正在加速优化事件响应流程,以确保事件能够得到最快最有效的管理。这意味着企业需要采取一种全面的事件应对方法,了解事件如何发展,如何不断提高系统弹性。从学术角度来看,一个典型的事.

2021-07-15 16:15:31 579

原创 睿象云入围 | 腾讯云原生加速器首期成员名单

睿象云入围 | 腾讯云原生加速器首期成员名单6月30日,“开源向善·应云而生”腾讯云原生加速器公布了首期入选企业名单,睿象云等 38 家优秀云原生企业从全球500多家参与企业中脱颖而出,携手腾讯共建云原生生态,面向云原生未来加速启航。产业数字化浪潮中,云原生已成大势。企业发展中的开发、运维、管理等环节日趋复杂,云原生技术为企业提供了面向未来的信息化平台构建方式,并已逐渐开始融入各行各业。腾讯积极构建云原生生态,联手生态伙伴,共同为企业提供便捷、安全的云原生服务。由此,“腾讯云原生加速器”应运而生,输出腾

2021-07-06 17:14:19 341

原创 车行易携手睿象云:告警管理体系全升级

据权威数据显示,目前国内汽车后服务市场的规模已达万亿级别。而在车主日常用车的多种生活场景中,与车辆违章相关的细分业务使用频度仅次于导航、停车、洗车等三项车后服务,这也是极具发展潜力的一个细分市场。「车行天下,快易人生」的车行易,已经成为众多服务厂商中的佼佼者。创立于 2011 年,全国最大的违章数据处理平台的车行易违章大数据平台(以下简称:车行易),已经在线服务覆盖全国 330 多个城市,在全球拥有超过超一亿车主用户。车行易以庞大的车务数据平台为基础,集违章代办办理、行车周边、车务处理、一键挪车、实时提

2021-04-16 01:00:03 397 2

原创 当 ITOA 遇上 Cloud Alert,企业可以至少每年节省 3600 小时!

每个工作日,一家大型企业都可能存在一两件优先级为 1 级的事件,五六件优先级为 2 级的事件和百来件优先级为 3 级的事件。试想一下,如果公司所有支持人员都要收到每个事件的通知……不想了,我好方!还能不能愉快的工作了?然而,这样的事情每天都在各个企业里上演。然而支持团队并无权处理所有事件!他们却需要反复地处理各个事件,如果全球各地的支持团队都如此,想想这总共得浪费多少时间和多少叠 money 呀!2012 年全球第一家 ITOA 企业 Splunk 的上市,人们才有了更为有效的方法解决上述问题。首先我.

2021-04-01 15:08:22 278

原创 睿象云智能告警平台cloudalert排班可以帮你做什么

排班功能详解· 轮班机制· 工作时间· 多视图展示· 排班临时调整如何通过排班助力运维团队· 通过排班让告警精准分派相关人员· PDCA 戴明环优化排班策略轮班机制Cloudalert(以下简称CA)的分派功能已经可以实现告警第一时间分派到相关人员,但告警一定要第一时间所有相关人员同时处理么?答案是否定的,大部分公司会选择以值班的方式,让不同的人在指定的时间内,处理当时发生的告警。CA的排班功能中,可以实现如下轮循值班需求:· 按天轮循· 按周轮循· 按指定小时轮循CA支.

2021-04-01 14:51:06 373

原创 Datadog 能成为最大的云监控厂商吗

Datadog 原本是一家名不见经传的云监控公司,于 2019年9月19日 登陆纳斯达克,上市首日即突破 80亿 美金。上市前还搞了个小插曲,思科在 IPO 前夕提出 70亿美元 全面收购要约,被 Datadog 董事会断然拒绝。时至今日,经过了一年半左右的持续上涨,截至 2020年3月2日,Datadog 市值达到了令人咋舌的 298亿美金。一个做云监控的厂商为什么能比风头正劲的 Splunk 还值钱,是不是被资本市场高估了?未来还能走多远?我带着这一席勒疑问开始进行了相关的研究。我们先来看看 D.

2021-03-29 11:04:31 1005

原创 AIOps 让「事件管理」变得更加智能

AIOps 日益增长的趋势,代表着未来市场积极的发展信号。最终,AIOps 将有能力帮助 IT 团队完成各类最重要任务与最紧迫的事务,例如与业务效能密切相关的应用程序与数字服务可靠性、稳定性以及正常运行时间。日益分散、异构且高度动态化的现代 IT 环境不仅没有降低监控与管理的难度,反而随着云计算、容器与微服务技术的普及给各类组织带来更严苛的运营挑战。面对这一现实难题,IT 领导者正转向 AIOps,将人工智能应用于 IT 运营,希望借此破解 IT 复杂度提升与传统监控工具不足的窘境。人工智能技术和 IT

2021-03-15 11:20:26 430

原创 想要完成系统性能评估? 试试【云压力测试 + APM】的端到端压测解决方案

随着移动互联网、云计算、物联网等技术的不断发展,企业数字化转型的渗透率也越来越高,应用架构变得更加离散和复杂,一个系统是否具备高稳定性,不但要看其架构是否合理,还要关注其性能是否强大。​对于小型的产品来说,每秒的在线人数超过百人就可能会导致产品无法响应,而对于一些几经考验的产品,每秒上万,上百万的并发才能满足他们的业务需求。当产品的承载能力遇到瓶颈的时候,发包不断超时,页面不断加载,然后页面无法响应,直到最后服务器崩溃…企业要想从容应对业务访问流量,准确发现系统性能瓶颈,就需要找到更加科学解决方案,而性能

2021-01-28 14:17:18 932

原创 干货分享|仅需六步,加速提高DevOps效率

随着企业业务对软件系统日益依赖,IT运营管理与产品研发交付对“敏态”模式产生了愈发强烈的需求。将产品的设计、开发与运营等元素进行高效整合,综合管理,就是今天时常提起的DevOps。可以说DevOps的到来才真正让开发者与管理员携起手来,并为传统开发及运营流程间存在鸿沟及割裂架起了桥梁。为了提升产品的上线发布速度,实现更好的开发敏捷性,让开发人员拥有更多的时间去创新,越来越多的技术团队都在寻求实施DevOps。但是,采用DevOps并不是万能药,这种方式需要开发团队和运维团队密切交流、高效协作并且相互理解.

2021-01-08 15:53:20 429

原创 什么是事件管理?看这一篇就够了!

“维基百科”是这样定义事件管理(Event Management)的,事件管理是项目管理在大型活动创新和发展中的应用,如节日、会议、庆典、婚礼、聚会、音乐会、集会等。这里面包含了品牌研究、目标受众确定、活动概念设计,以及活动实际发生前的技术协调。如果我们把这个概念投射到IT领域,事件管理就是为了实现某个特定的业务诉求,将事务状态变化信息与人员响应进行联动的一系列过程。事件管理的目标是检测并记录这些事务状态的变更,以便获得对业务风险和商业机会的完全可见性。例如:用户登录,转账失败,业务系统版本升级,数据备

2020-11-17 09:08:22 5468

原创 睿象云案例|智能一体化告警管理持续赋能旷视科技云端业务发展

北京旷视科技有限公司(以下简称:“旷视科技”)是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。旷视科技向客户提供包括先进算法、平台软件、应用软件及内嵌人工智能功能的物联网设备的全栈式解决方案,并在金融科技公司、银行、智能手机公司、第三方系统集成商、物业管理者、学校、物流等多个行业占据行业领先地位。近年来旷视科技各项业务快速发展,从个人物联网、城市物联网到供应链物联网的三大场景均有布局,并拥有云服务和开发者、消费电子、城市管理、园区、物流及零售行业的核心领域业务。作为国内计算机视觉领域的“独角兽

2020-11-05 16:30:44 431

原创 如何做到告警通知的有效管理?

信息大爆炸的时代下的今天,运维人员每天都要处理成千上万的信息。面对各种运维事件,想获得足够的告警信息,单一的监控系统显然是不够的。越来越多的运维团队同时用着多种监控工具,这些工具每天都会发出成百上千个告警。运维成员每天都面对着冗杂且繁复的告警信息,运维工程师们很难了解,哪些告警信息才是最关键的?哪些告警信息是重复可替代的?哪些告警信息又是可以忽略且清除掉的?于是处理告警通知就成了最头疼的事情,而且把时间都耽误在了处理错综复杂的无效告警上,错失掉真正需要关注的信息。严重的,会直接影响线上业务的使用,致使客户流

2020-10-20 14:05:30 815

原创 想要告警的智能化管理?看这一篇就够了

企业的IT系统建设是一个聚沙成塔的过程,伴随业务规模的不断扩大,IT系统越来越多、IT架构的复杂度呈指数级增长,运维部门承受着巨大的管理压力。在如此庞杂的环境下,数据之间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。这就需要对离散的IT监测系统和海量的告警数据进行统一的采集、处理和呈现。充满挑战的运维告警管理相信每一个运维小伙伴都被这些问题困扰着:如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速地甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行?那么,到底是什么原因给告警管理带来如

2020-09-25 17:10:40 1090

原创 双十一在即,您业务性能的高可用真的达标了吗?

在当下流量为王的时代,互联网巨大基数的用户,给互联网的产品带来了无限可能。但是,这也给企业的后台架构、运维体系提出了很高的要求。如果吸引到了足够多的用户,却因后台架构的可用性无法达到这种量级的标准,由于流量冲击过大导致后台架构崩溃,造成前端用户的不可用,则会造成大量的客户流失,对于企业来说,更是巨大的经济损失!系统性能的高可用已经成为了国内互联网企业的一个常态化认知。如何提高业务应用的可用性和可靠性指标,在提供更优质服务的前提下,降低运维的投入和工作量,为用户带来更多的商业利益和客户体验,就成了至关重要的

2020-08-21 15:06:40 226

原创 用云压力测试工具,如何完成一次测试任务

Cloud Performance Test 云压力测试平台(以下简称:CPT)可以提供一站式全链路云压力测试服务,通过分布式压力负载机,快速搭建系统高并发运行场景,按需模拟千万级用户实时访问,并结合系统资源状态,评估系统承载能力,快速定位系统性能瓶颈。而测试任务是云压力测试平台的重要组成部分,脚本调试成功后,用户可以在测试任务页面选择压测脚本、编辑用户曲线、选择压测节点,保存后可以执行任务查看压测结果。需要工具:进入睿象云官网,注册账户信息,找到“Cloud Performance Test 云压力测试

2020-08-14 15:46:03 540

原创 用 Cloud Performance Test怎么录制测试脚本

Cloud Performance Test 云压力测试平台(以下简称:CPT)可以提供一站式全链路云压力测试服务,通过分布式压力负载机,快速搭建系统高并发运行场景,按需模拟千万级用户实时访问,并结合系统资源状态,评估系统承载能力,快速定位系统性能瓶颈。而测试脚本又是云压力测试平台的主要组成部分,只有脚本创建成功、调整结果正常,才可以提供给后续测试任务使用。需要工具:进入睿象云官网,注册账户信息,找到“Cloud Performance Test 云压力测试平台”即可开始进行一次云压力测试之旅。在 C

2020-08-07 14:36:26 269

原创 作为一名优秀的测试工程师,如何完成一份完美的测试报告

之前讨论了如何完成一次云压力测试,也介绍了如何利用睿象云旗下产品:云压力测试平台(CPT)完成云压力的测试,这次我们就来详细的介绍下测试报告。测试报告可以说是测试工作中最重要组成部分,通过测试报告可以分析和总结最优测试结果,测试出问题后调整被测服务再继续压测,对比测试结果查看调优结果。睿象云的云压力测试平台的测试报告中共包含: 01-测试报告选择区; 02-实时执行结果数据; 03-操作工具栏; 04-虚拟用户汇总区; 05-基础图表汇总区; 06-执行信息; 07-测试详细数据。测试报告选择区

2020-07-30 11:23:13 702

原创 业务上线前,如何完成一次性能测试?

在当下互联网时代,各个平台为了防止在高并发的情况下所出现的一系列问题,往往在平台上线前,会针对平台做出性能压力的测试,其中异常问题主要包含以下问题:· 瞬时的用户访问量激增;· 服务端的流量满载;· 系统资源长期居高不下被占用;· 服务访问的过程中超出了最大的上限,服务过窄;· 网站虽然可以访问,但是延时极具升高这时候,如何完成一场完美的压力测试,就成为了最为关键性的问题。睿象云旗下产品:云压力测试平台(CPT)可以完美实现云压力的测试,支持可视化业务脚本录制和手动快速创建、编辑、调试脚本,分

2020-07-22 14:04:07 524

原创 一遇“高并发”系统就难逃一“崩”,性能测试的方法你真的选对了吗?

大促常态化的当下,平台总是会提前做各种排查测试,严阵以待,生怕出现高并发带来的,但往往还是防不胜防。事实上,在移动互联网盛行的当下,超高并发压力并不只存在于电商领域,在线教育、在线办公、社交娱乐等领域同样深受其扰。在超高并发量下,IT系统如何才能挺住不崩?有没有办法可以提前预测到,并加筑好“防御堡垒”?6月23日,睿象云 CTO 何毅鹏在线上进行了一场主题为「后疫情时代,企业性能评估的最佳实践」的直播课程,本次直播深入剖析了高并发网站常见性能异常事件,分享了如何从 0 到 1 构建标准化、规范化的云压测体

2020-07-02 16:21:12 776

原创 运维告警管理—多渠道的通知必达

睿象云智能告警平台CA中通知策略实现了被分派人接收告警的通知方式,确保告警发生/认领/关闭时,能以用户习惯的接收告警的方式,实时收到告警通知,同时,尽可能减少告警遗漏。如果你想实现电话、短信、微信、邮件、APP,5种通知方式,您需要:• 个人信息中,填写正确的电话号码;点击右上角 个人中心可修改手机号• 个人信息中,填写正确的邮箱地址;点击右上角 个人中心可修改邮箱• 个人信息中,绑定并关注 Cloud Alert 微信公众号;扫描下方二维码,下载APP,安装,登陆。为满足大部分客户的个性化通

2020-05-30 01:57:31 1065

原创 运维工程师如何做好告警分析与汇报?

智能告警平台(Cloud Alert) CA,能快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。关键指标分析事件量: 原始告警量· 主告警量: 自动去重、规则压缩后告警量· 压缩比: 压缩比计算公式:(1 - 主告警

2020-05-22 17:41:12 951

原创 运维告警管理——告警的灵活分派

当下IT运维人员的一大头疼事,便是复杂而凌乱的告警,无法将告警信息进行灵活分类,通知给不同的人,这样就加大了运维人员对告警信息的判断难度,进而无法快速的的定位到根因,也就无法快速的解决问题。睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;灵活的分派策略:在CA的分派策略当中,用户可以根据不同的应用,选定不同的筛选条件,将条件相结合,让指定的告警通知到特定的人;例如:在z

2020-05-15 11:39:41 851 1

原创 如何做到告警的智能降噪?

为何要压缩告警?运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:l 故障期间,告警风暴,手机/邮箱会被海量告警淹没;l 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;l 固定阈值控制,频繁误报、漏报告警;如何实现告警压缩与降噪?睿象云智能告警平台 C...

2020-05-08 16:56:44 801

原创 想要快速实现告警管理?来看这一篇就够了!

当下IT运维人员的一大问题,就是对于大量的告警难以进行精准的通知,以及无法在大批量的告警中快速的定位到问题的所在,再加上时不时出现的告警风暴,加大了告警处理的难度,这就需要一款完善的告警管理平台来针对告警的统一化管理。睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠...

2020-04-30 17:00:33 521

原创 智能运维中的关键一步——告警管理

在复杂的运维工作中,如何将告警有效的管理是运维工作中关键而重要的一步,有效的告警管理可以将大大提高运维人员的工作效率;睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;接下来就来详细的说下吧~● 支持多平台应用一体化管理用户可以将多个监控平台接入到CA当中进行统一...

2020-04-23 17:39:57 1277

原创 如何灵活的实现告警的通知?

将告警灵活且准确的通知,能大大减轻运维人员的工作量,使得IT运维人员第一时间解决问题。睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;接下来就来详细的说下吧~● 灵活的分派策略与通知策略分派策略:设置的是告警发生时所通知的人;用户可以在分派策略中设置筛选条件,...

2020-04-16 16:21:30 658

原创 一款成熟的告警管理平台能带来什么?

信息大爆炸时代,浩如烟海的事件信息和不断变化的IT拓扑关系,日益成为IT运维团队的一场噩梦,那一款成熟的事件管理平台所能带来哪些效益呢?睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;接下来就来详细的说下吧~● 支持多平台应用集中管理用户可以将多个监控平台接入...

2020-04-10 14:43:36 561

原创 如何快速实现告警短信的通知方式?

在当下疫情期间,对于运维人员,不遗漏告警成为了最为首要的事情,选择电话、短信这种更为直接快速的通知方式,似乎是更为不错的选择。今天就来说下如何快速实现告警短信的通知方式。睿象云智能告警平台Cloud Alert(以下简称为CA)作为中国第一个 SaaS 模式的云告警平台,在这个平台通过集成应用、设置分派策略、以及设置通知策略,简单的三个步骤,完美实现短信告警。集成告警:就是将告警平台接入到这个...

2020-03-26 14:42:14 1389

原创 如何在企业微信中告警的通知、认领和关闭?

企业微信是腾讯微信团队打造的企业通讯与办公工具,具有与微信一致的沟通体验,丰富的OA应用,和连接微信生态的能力,可帮助企业连接内部、连接生态伙伴、连接消费者。专业协作、安全管理、人即服务。成为了大部分企业的主流办公应用。在当下疫情期间,将告警不遗漏的发送到企业微信,并且能够快速的认领和关闭,达到第一时间处理的效果,就是一个最好的选择。睿象云智能告警平台Cloud Alert(以下简称为CA)作...

2020-03-12 16:06:40 931

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除