
AIOps
文章平均质量分 88
嘉为蓝鲸
与大家分享最新IT研发、运维、运营侧资讯
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
量化评估 + 科学策略:构建高稳定性 IT 服务体系
解析问题管理度量指标与成熟度,借数据驱动等方法提效降风险,保障业务稳定。原创 2025-05-16 16:47:18 · 844 阅读 · 0 评论 -
大模型时代的运维 PPTR 变革:人员、流程、工具、资源的智能化转型
大模型下运维PPTR各要素转型,人机协作提效,构建智能运维新生态。原创 2025-05-16 16:47:10 · 681 阅读 · 0 评论 -
资源即智能:AI时代运维体系的底层能力跃迁
革新传统运维模式,通过六类资源智能化重构与动态协同,构建闭环自治网络,提升运维效率并驱动未来智能生态。原创 2025-05-09 17:12:50 · 622 阅读 · 0 评论 -
嘉为蓝鲸运维大模型开发平台 V1.2:支持 DeepSeek 等60+前沿模型,快速落地打造运维 “智能中枢”
嘉为蓝鲸作为数字研运解决方案的引领者,在保持研运一体化运维平台稳定发展的同时,坚持创新,结合运维领域最新的大数据、机器学习和大语言模型技术,融入嘉为蓝鲸上千家政企客户的实践经验和发展诉求,推出的嘉为蓝鲸运维数据与智能平台,已经在多家头部银行和运营商客户落地,帮助客户解决海量规模下的运维质量、成本、效率和体验问题,取得了良好的效果。原创 2025-04-21 14:06:41 · 628 阅读 · 0 评论 -
ITSM运营:事件管理的持续改进实战指南,告别被动响应!
在数字化转型加速的今天,如何利用科学的度量指标来持续改进事件流程,提高事件响应和恢复的效率,成为IT运维团队的关键课题。为提高事件管理团队的响应能力和解决问题的效率,必须定期组织专业的培训,帮助团队熟悉不同类型的事件、处理流程及应对策略。本文将探讨事件流程中的度量指标,并着重分析如何通过额外支持指标和成熟度识别来推动事件流程的持续改进,提升整体服务质量和效率。原创 2025-04-08 15:29:49 · 629 阅读 · 0 评论 -
可观测与大模型融合:从日志解析到根因定位,重塑可观测性技术栈
传统运维工程师面对系统异常时,还在反复切换监控平台、日志平台和SQL查询工具进行查询和分析,而大模型技术正在重新定义数据交互方式,基于Function Call无缝连接系统数据,通过小鲸观测助手,实现自然语言聊天式快速获取系统数据,辅助异常分析。结合预测性对话流与大模型,小鲸观测助手能够实现对话智能引导,引导用户完成智能提单引导、智能故障处置引导等场景:根据故障排查的场景,预设引导性场景,智能机器人识别关键字以后进入引导场景,确保问题能够迅速被识别和解决。原创 2025-04-08 15:28:39 · 914 阅读 · 0 评论 -
AI + 模型插件:嘉为蓝鲸多云管理中心 V5.2 解锁多云管理智能未来
如何打破多云孤岛、实现资源全生命周期的智能化管控,成为企业数字化转型的核心命题。嘉为蓝鲸多云管理中心V5.2重磅升级,以“模型驱动”+“服务创新”为核心,推出两大颠覆性能力体系,助力企业构建自主进化、灵活开放的多云管理生态,从资源管控迈向业务价值驱动!原创 2025-04-08 15:27:12 · 631 阅读 · 0 评论 -
当灾备管理遇见移动时代:嘉为蓝鲸应急灾备管理中心 V1.6 三大模块重构应急响应范式
嘉为蓝鲸应急灾备管理中心V1.6通过应急事件的统一接入管理,移动端应急响应、协同、升级上报与信息同步,以及一站式应急工作台,解决应急事中的效率痛点问题。原创 2025-04-08 15:25:54 · 881 阅读 · 0 评论 -
运维能力进阶指南:DeepSeek 助力运维人员领跑 AI 时代
例如,当遇到一个复杂的系统故障时,运维人员可以利用AI驱动的知识库,快速定位到类似的故障案例,并获取详细的解决方案,从而提高工作效率。对于管理者而言,需要从传统的“资源协调者”进化为“技术战略家”,具备敏锐的技术洞察力和前瞻性的战略规划能力,能够准确把握 AI 技术的发展趋势,并将其与企业的业务需求相结合,制定出切实可行的技术战略。对于运维管理者和工程师而言,站在这一技术变革的十字路口,如何在充分挖掘 AI 赋能潜力的同时,有效控制由此带来的风险,妥善应对职业转型的挑战,成为未来三年内亟待解决的核心命题。原创 2025-03-31 16:32:56 · 652 阅读 · 0 评论 -
智能运维进化论:嘉为蓝鲸应用发布中心 V6.0 如何用 AI 实现发布场景智能闭环?
通过发布平台一站式贯通持续集成CI、持续部署CD、投产审批ITSM、发布投产阶段,构建以应用为中心的应用、制品、配置和发布管理流程,实现版本持续交付自动化。发布平台具有稳定、高效、跨多云区域的海量执行能力,支持托管。原创 2025-03-31 16:32:38 · 1014 阅读 · 0 评论 -
嘉为蓝鲸IT服务管理中心 V4.0 全新升级:五大引擎+两个中心构建 IT 服务管理的智能生态
与一般的ITSM工具不同,它不仅是基于ITIL实践的,还融合了Paas、低代码、自动化、AI等新技术,使得流程更灵活敏捷的同时,能够减少流程孤岛,帮助运维组织实现数字化程度更高的工作协同模式。的架构,不仅支持对小型组件(如:表单字段、门户组件)的低代码扩展开发能力,还提供了应用级别(如:事件管理、变更管理应用)的专业级代码扩展能力,以提供一个足够开放的平台来满足企业多变且复杂的管理场景,并允许与第三方系统无缝集成和融合。仅仅提供强大的平台是不够的,场景应用才是真正为客户创造价值的模块。原创 2025-03-31 16:32:30 · 830 阅读 · 0 评论 -
湖北数产集团X嘉为蓝鲸:智能运维引领数字经济转型,开启产业升级新纪元
通过构建业务管理一体化平台,湖北数产集团的运维效率和质量得到提升,实现运维工作的数字化转型。未来,该平台将持续发挥强大的运维管理能力,帮助数产集团更好地应对各种运维挑战。湖北数产集团与嘉为蓝鲸将共同致力于推动运维管理的创新发展,不断深化合作成果,为数产集团的数字化转型和业务发展提供强有力的支撑。原创 2025-03-31 16:32:24 · 866 阅读 · 0 评论 -
嘉为蓝鲸自动化运维中心 V2.6 :全链路IP自动化重塑自动化运维范式
嘉为蓝鲸自动化运维中心是一款专为IT运维团队打造的统一自动化管理工具,致力于提升运维操作的效率、安全性和质量。与普通自动化工具不同,它不仅提供了通用的自动化平台基座,打破数据孤岛,打通各类“烟囱式”系统,更在此基础上构建了全流程闭环场景,聚焦高价值运维场景,实现从操作到管理的无缝衔接,为用户带来的运维体验。原创 2025-03-25 11:48:52 · 833 阅读 · 0 评论 -
银行 SRE 转型新突破:依靠与虚拟 IT 组织的高效协作
本文深入探讨了SRE团队与这些虚拟组织的协作框架,分析了每个委员会的职能与目标,并阐述了SRE团队如何与它们紧密配合,推动系统的高可用性和弹性。在银行的IT运维体系中,SRE团队与其他虚拟组织(如技术架构委员会、业务连续性委员会、风险管理委员会)之间的协作不仅体现在组织层面的协同工作,还体现在人员角色的交叉与重叠上。原创 2025-03-17 15:37:45 · 855 阅读 · 0 评论 -
DeepSeek爆火,OpsPilot才是最坚实的运维“底座”!
OpsPilot的火爆程度从侧面反映了AI技术的巨大潜力,而WeOps的出色表现则证明了运维在AI时代不可或缺的重要性,真正实现1+1>>2的效果。以嘉为蓝鲸推出的AI产品OpsPilot为例,它凭借强大的AI能力,不仅为客户提供便捷的AI服务,也对公司内部所有技术与业务人员提供强大的工作支撑,构建起。,大大提高了运转效率,然而随着AI的应用范围扩大,资源要求也越来越高,对AI工具本身的支撑问题也。的火爆,正驱动人工智能迈入超速迭代周期,推动AI以前所未有的速度改变着我们的生活和工作方式。原创 2025-03-03 13:48:29 · 380 阅读 · 0 评论 -
LLMOps+DeepSeek:大模型升级一体化运维
嘉为蓝鲸LLMOps平台+DeepSeek:为运维全生命周期及业务通用AI 场景提供工具支持与自定义扩展能力;10+震撼智能运维场景分享。原创 2025-02-21 18:01:16 · 1036 阅读 · 0 评论 -
【SRE转型】银行SRE转型:如何突破传统运维困境,打造高效团队?
此类环境中的技术债务和运维复杂性,使得SRE团队的组建不仅需要具备深厚的技术能力,还必须考虑到如何与现有IT架构平滑衔接,推动技术创新与稳定性的平衡。面对业务的高可用性需求、技术环境的复杂性,以及合规和安全性等特殊要求,银行SRE团队的组建既是一项技术挑战,也是一项战略性决策,涉及到人员、文化、流程等多方面的规划与实施。SRE团队的成员通常具备开发能力、运维经验以及自动化技能,他们不仅关注系统的稳定性,也积极参与系统设计、部署和优化过程,从根本上提升系统的可维护性。原创 2025-01-17 15:13:35 · 998 阅读 · 0 评论 -
可观测产品剖析——业务监控
无论是银行证券等金融企业,还是能源交通等制造厂商,业务永远是企业内部最重要的生命线,各种复杂繁多的业务场景支撑了一家企业的生命存续,针对业务系统的运行观测成了各大企业的重中之重。业务监控旨在通过最小化用户系统的改造需求,采用更广泛的技术路径,来降低企业内部业务可观测性的建设成本,并为众多不同类型的企业提供高度适用且用户友好的业务场景可观测解决方案。与业务看板页面一致,支持用户查看任意时段的指标数据,黄金指标集中展示并根据指标告警情况进行染色处理,支持用户点击染色视图一键跳转至告警列表页,查看对应告警详情。原创 2025-01-02 11:07:56 · 798 阅读 · 0 评论 -
4 万字干货!《企业一站式可观测体系最佳实践指南(2025)》助力新质生产力!
这本实践指南就像一盏明灯,指引企业建立完善的可观测体系,使其在面对业务技术架构日益复杂、业务需求多变等挑战时,能实时掌握系统运行状态,及时发现并解决问题,避免因系统故障或性能瓶颈影响业务发展。,一站式可观测体系能够帮助企业运维团队更加精准地定位问题、提前预警潜在风险,降低故障对业务的影响,提升运维工作的整体效率和质量,并提供最佳实践经验参考借鉴。本实践指南旨在为不同行业用户提供实践方法论指导与落地实践参考,通过理论体系的梳理、方法论的总结、场景案例的深度剖析,为企业带来以下实践价值和意义。原创 2025-01-02 10:46:33 · 297 阅读 · 0 评论 -
可观测系列产品剖析:调用链追踪
基于实际业务流量构建不同服务的全局依赖拓扑,实现可选时间范围的单业务领域全景分析,通过拓扑节点大小、颜色差异有效分析服务流量负载及服务健康状态,支持对服务节点的下钻分析、指定时间范围内服务请求、负载、错误、耗时黄金指标,在服务内可下钻分析服务的单一接口/单一服务实例进一步故障寻址分析。每笔业务请求调用在入口服务生成请求唯一标识,当流量在下游多个服务传递时将请求唯一标识、当前节点请求标识、上游服务信息作为上下文传递,从而构建完成业务调用链路。支持一键跳转服务分析,支持下钻至调用链检索进行详情查看。原创 2024-12-18 11:28:34 · 469 阅读 · 0 评论 -
运营商实战成果!分布式架构可观测能力建设全攻略
基于实际业务流量构建不同服务的全局依赖拓扑,实现可选时间范围的单业务领域全景分析,通过拓扑节点大小、颜色差异有效分析服务流量负载及服务健康状态,支持对服务节点的下钻分析、指定时间范围内服务请求、负载、错误、耗时黄金指标,在服务内可下钻分析服务的单一接口/单一服务实例进一步故障寻址分析。此外,用户可结合实际业务场景从HTTP请求头、请求参数、cookie等获取业务特征数据完成数据埋点,在链路分析时根据指定业务特征的请求依赖关系辅助业务异常分析。应用开发或运维人员对应用性能观测有认知、有需求、会使用的企业。原创 2024-12-18 11:23:13 · 288 阅读 · 0 评论 -
【广州银行信用卡中心】5分钟实现一键发布!
通过自动化运维平台-应用发布中心,赋能应用发布效能提升,大大提升信用卡中心生产上线交付效率,节省上线人力投入成本,降低出错率,切实提升了运维质量。。原创 2023-03-09 17:26:28 · 141 阅读 · 0 评论 -
一文详解什么是软件部署
软件应用一般由开发人员进行程序源代码的编写,调试,集成构建,打包提交给测试人员。测试通过后程序包发布,最后由运维人员进行软件应用的部署。简单的说,软件部署就是把开发好的软件应用给到用户正常使用的过程。...原创 2022-08-03 12:03:09 · 1674 阅读 · 0 评论 -
什么是敏捷型的运维组织,金融企业真的需要吗?
与传统企业相比,敏捷企业聚焦于极致用户体验,以实现客户旅程的端到端优化。原创 2022-06-16 14:33:47 · 365 阅读 · 0 评论 -
分享三个关于CMDB的小故事...
我们在服务客户的过程中常常发现,不同岗位对于同一个产品的需求不尽相同。01. 是什么让他沉迷Excel无法自拔?小张是一名运维工程师,负责做公司配置表格的维护。目前公司的配置信息以Excel表格为主要维护手段,他每天都要打开不同的Excel表格,表里密密麻麻记录着资产和配置统计等信息,根据当日的维护状况按时更新和维护。尤其这些年,公司的业务在扩张,系统的数量越来越多,每次维护起来有些手忙脚乱,需要仔细记录和核对数据,避免出现数据不一致等情况。当公司就一两个业务,两三个系统的时候,拥有多年工作原创 2022-05-28 20:07:57 · 173 阅读 · 0 评论 -
ITIL4之后,运维管理层面该如何发力?
ITIL 4自19年正式对外发布,至今已经有2年了,目前已经建立了较为完整的框架体系。运维领域因为ITIL 4的发布带来较大改变,因此本次直播我们将围绕ITIL 4出现前后的运维侧的改变为主题进行讲述,内容分三大部分:ITIL 4说了什么、ITIL 3与ITIL 4的区别对比、我们应该如何提升IT服务管理水平。01. ITIL 4 说了什么?我们先来看一下ITIL的演进过程,ITIL最早是在1980提出,九年后出版了第一本ITIL书籍,但是在当时并没有引起人们的关注,也没有被太多人认可。20原创 2022-05-28 20:05:39 · 415 阅读 · 0 评论 -
企业运维仅关注业务连续性是不够的,这两方面也很重要
自从我学习和通过了精益(Lean IT leadership)、敏捷(Scrum Master)、DevOps(DevOps Master)相关认证后,对运维管理和运维工作本身有了新的思考和启发。本文我们将围绕保障业务连续性、敏捷交付业务价值和提升员工满意度3个阶段进行探讨,同时分享不同阶段的实现思路供各位参考。01. 运维管理的终极目标——BVSSH运维管理的最重要的职责之一是保障业务连续性——负责系统的运行维护,保障业务安全稳定地运行。时过境迁,在VUCA的数字化时代,运维管理仅关注业务连续原创 2022-05-28 19:59:30 · 576 阅读 · 0 评论 -
为了避免智能运维AIOps只是一句空话,我们还要做哪些准备?
需要思考这个问题的原因,是因为AIOps不是到了某一个点就突然质变的,而是在持续演进过程中实现的。随着算法的日益成熟,整个运维体系也在改进的过程中逐渐完善,AIOps的道路才会慢慢清晰。因此,在达到目标之前,我们需要仔细规划怎么做才能更快实现AIOps。本文主题是“AIOps之前,运维层面能做什么?”,由嘉为蓝鲸金融行业顾问总监赵海兵老师为大家带来解答。本文内容分为三个部分:①自动化运维的目标:端到端的自动化②自动化运维的价值:呈现与度量③运维数据管理:过程融合与结果治理。为了避免A原创 2022-05-28 19:56:43 · 432 阅读 · 0 评论 -
如何从零开始建立起一个公司的运维体系?
近期从知乎上看到一个很具有讨论性的问题:如何从零开始建立起一个公司的运维体系?这是由一位刚刚毕业的学生提出的,一个毕业生,思考从0建设公司的运维体系,本身就不是一个可落地的事情。但从方法论角度来看,这个问题是有解的。首先,回答怎么做之前,先思考要不要建立一个运维体系。这个和你的公司的现状有关。Case1:公司规模小,有开发团队,没有运维团队:建议不要建立一套运维体系,而是基于DevOps的角度来思考。简而言之,在这种体系下,研发运维一体化,研发需要承接运维工作。尤其是当你们的业务是实时再线对原创 2022-01-10 16:49:52 · 1821 阅读 · 0 评论 -
智能运维探索:有一种多指标异常检测方案,你可能没用过...
各行业信息化程度迅猛发展的今天,各大企业的信息系统也日趋庞大和复杂。为了保证系统的正常运行,企业的运维人员会通过相应的KPI(Key Performance Indicator, 关键性能指标)对系统进行监控。当某些KPI发生异常时,能够及时发出告警,通知相关人员。一、监控告警系统的数据检测现状现有的监控告警系统大部分采用人工设定规则或阈值的方式来实现。在某些情况下,这些方法确实简单有效,但在中大型业务系统中,我们往往会面临更多的KPI数量,更复杂的KPI间的关联关系,以及更多样性的KP原创 2021-12-24 10:52:07 · 1975 阅读 · 1 评论 -
AIOps是如何在腾讯IEG体系化推进和普及的?
10月,由嘉为科技携手腾讯蓝鲸智云联合主办的智慧生长·研运未来暨2021年研运治理实践大会在北京成功召开。在20日下午进行的智能化运维分论坛上,来自腾讯IEG技术运营部的蓝鲸AIOps负责人盘隆同与会嘉宾探讨了AIOps在蓝鲸的实践思路和路径,并带来了《AIOps如何在腾讯IEG体系化推进与全面普及》的专题演讲。运维领域,没有企业不在谈AIOps和如何建设AIOps,但是很多企业会缺少深度思考:AIOps的建设去向何方?以什么样的模式来建设?需要具备哪些基础能力?以及最为重要的是:我们的组织如何准备原创 2021-11-21 12:00:16 · 1774 阅读 · 0 评论 -
智能运维AlOps——日志异常检测新方法
一、背景日志数据是一种广泛可用的数据资源,用于记录各种软件系统中运行时的系统状态和关键事件。开发人员通常利用日志数据来获取系统状态、检测异常和定位根本原因。隐藏的丰富信息为分析系统问题提供了一个很好的视角。因此,通过在大量日志数据中挖掘日志信息,数据驱动的方法可以帮助增强系统的健康、稳定性和可用性。随着现代计算机系统规模和复杂性的增加,日志数据呈爆炸式增长。有大量数据驱动的方法可以自动检测异常,例如基于主成分分析(PCA)的方法、基于不变挖掘的方法和基于工作流的方法,基于深度学习的方法如:DeepL原创 2021-11-21 11:56:42 · 4149 阅读 · 0 评论 -
如何告别“人工运维”,借助算法进行告警关联挖掘分析?
背景近年来互联网技术高速发展,接入监控告警的设备和业务也越来越多,不断增新的设备和业务使得告警的量级也逐级递加。各种软硬件模块每天会产生大量的告警信息,这些告警中有表象告警,有冗余告警,也有根因告警。每次故障出现都会引发一系列错综叠加的告警,从而将根因告警淹没在里面,导致故障识别异常困难。一般告警分析主要是靠运维人员进行处理,当告警出现时,常常要求运维人员必须在最短的时间内,正确地判断出告警中存在的关联性,然后根据自己的经验采取相应的措施。然而面对海量告警,靠人工从大量告警中找到故障原因...原创 2021-08-20 15:01:37 · 1119 阅读 · 0 评论 -
【AIOps探索】基于CauseInfer方法的根因定位
背景近些年来,在需要支持多平台的互联网应用中,越来越多的公司选择从单体系统迁移到微服务架构。微服务系统通常包含成百上千的应用,这些系统是高度动态和复杂的,一个服务可以有几个到几千个实例运行在不同的容器和服务器上,而可用性问题一直是大规模微服务系统面临的一个关键挑战。在这些系统中,服务质量(如性能、可靠性)的任何异常都有可能沿着服务调用链传播,由少量的根因节点影响到关联节点,并最终导致业务级别的可用性问题(如访问成功率下跌)。针对运维中的难题,全球权威的IT研究与顾问咨询公司 Gar...原创 2021-07-16 17:18:31 · 1296 阅读 · 3 评论