自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香

摘要: 电商团队经历了一次支付故障导致交易暴跌的“背锅”事件,传统技术监控无法定位业务问题。通过引入业务观测(Business Observability),团队构建了多角色观测体系:为老板提供核心指标(如GMV、订单履约数),为技术团队提供下钻分析工具(业务地图、漏斗分析),实现从业务现象到技术根因的快速定位。业务观测使技术数据与业务价值直接关联,避免了无效排查,提升了技术驱动的业务决策能力。 (150字)

2025-11-10 10:54:44 872

原创 Gartner报告:可观测性平台魔力象限

Gartner最新发布的《可观测性平台魔力象限》报告显示,可观测性平台正通过创新分析和AI观察性技术改变企业系统管理方式。报告定义了可观测性平台的核心功能,包括数据采集、问题诊断和智能分析等,并指出其对IT运维、平台工程和软件开发的关键价值。AWS、Apica和BMC Helix等供应商因各自优势入选不同象限,但都面临成本优化、多云支持和市场认知度等挑战。企业应结合自身需求,评估这些平台在提升系统可靠性和业务连续性方面的潜力。

2025-09-30 10:09:28 961

原创 基于 eBPF 技术打造的 LightAPM 应用监控,效果如何

文章探讨了企业遗留系统("古早应用")监控面临的挑战,这些系统多为早期开发的C/C++/汇编程序及老版本JDK应用,难以采用传统字节码增强技术进行监控。作者介绍了一种基于eBPF技术的"LightAPM"轻量级监控方案,该方案无需修改代码或重启应用,通过安装OneAgent即可实现自动化的服务拓扑绘制、性能指标采集和问题诊断。该技术能自动发现服务资产、构建调用关系,并提供应用与基础设施的关联观测,有效解决了传统APM工具在特殊场景下的监控难题。

2025-09-23 14:30:00 741

原创 惊喜!接入 skywalking 也能直接故障定位了

文章介绍了如何利用商业可观测平台DataBuff接管开源链路工具SkyWalking,实现一键接入和智能故障定位。通过修改SkyWalking Agent的数据接收地址指向DataBuff服务器,用户可快速构建监控管道。演示中,测试环境部署了大模型Demo应用和DataBuff平台,通过停止MySQL容器制造故障后,DataBuff的因果AI引擎成功识别出数据库异常导致的接口故障,并提供根因分析和修复建议。平台还提供链路观测、智能告警等辅助功能,帮助已部署SkyWalking的企业快速获得分钟级故障

2025-09-22 14:00:00 1527

原创 如何从零开发一款商业化的OneAgent

本文深度解析一款商用级OneAgent从零自研的全过程。揭秘我们如何实现50MB内存占用、非Root安装、SQL实时查询及采集即治理等核心特性,并分享在轻量化、易用性与可扩展性方面的架构设计思考,为构建企业级可观测平台提供数据基石

2025-09-19 09:50:14 679

原创 Java Agent 启动耗时性能评测排行榜

本文对主流APM监控探针的Java Agent启动耗时进行性能评测,发现在云原生高频发布场景下,探针启动延迟直接影响容器生命周期。测试结果显示:Databuff探针启动最快(43秒),相比基准33秒仅增加30.3%;SkyWalking最慢(66秒)。分析指出Databuff的优势源于按需字节码注入、异步上报等创新设计,并给出K8s配置优化建议,如针对不同探针调整startupProbe阈值。文章建议在启动敏感场景优先选择Databuff,并呼吁厂商借鉴其"启动优先"设计理念。

2025-09-16 17:46:38 536

原创 发布!乘云数字参编中国信通院《运维智能体(SRE AGENT)能力要求》正式发布

2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域领导者,重点参与了本次报告的编写。

2025-07-23 14:21:51 1189

原创 发布!乘云数字参编中国信通院《运维智能体(SRE AGENT)能力要求》正式发布 ![image.png](https://alidocs.oss-cn-zhangjiakou.aliyuncs

2025年7月23日,由中国通信标准化协会主办的 “2025可信云大会” 在京举行,《运维智能体(SRE AGENT)能力要求》标准正式发布,杭州乘云数字作为运维智能体及可观测领域领导者,重点参与了本次报告的编写。

2025-07-23 14:09:30 1018

原创 从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起

数据清洗可以像洗菜一样简单?乘云数字Datahub 帮助企业实现流水线式的自动化数据清洗。

2025-07-17 14:39:02 729

原创 可观测领域的王者Dynatrace的故障定位体验

在可观测性领域,Dynatrace可以说是公认的老牌王者,而Databuff是这一领域的后起新秀,二者都具备较强的故障定位能力。今天我们将进行一场测试,验证二者在故障定位能力上的差异。到底谁更胜一筹?请看下文。

2025-07-02 15:44:54 978

原创 DataBuff 多模态AI在可观测平台上的应用实践(龙蜥系统运维联盟Meetup分享)

【摘要】2025年6月,龙蜥社区在济南举办"智算中心智能运维技术"Meetup,阿里云、浪潮信息等专家探讨AI与运维融合趋势。杭州乘云数字联合创始人张怀鹏分享《多模态AI在可观测平台的应用实践》,指出传统运维存在指标孤岛、信息过载等痛点,提出通过多模态AI(LLM、知识图谱)实现自动化关联分析、智能诊断等突破,将被动监控升级为主动洞察。该方案显著提升运维效率,代表未来智能运维发展方向。

2025-06-18 11:38:57 662

原创 【故障定位系列】波动度故障

耗时波动不同,会产生不同程度的故障,如何自适应定位?

2025-06-03 09:57:57 417

原创 乘云数字获评“鑫智奖·2025专家推荐TOP10优秀解决方案”,赋能银行新核心系统运维

为促进金融企业数据管理和数据平台智能化转型,金科创新社主办了“鑫智奖·第七届金融数据智能优秀解决方案评选”活动。其中,乘云数字DataBuff平台斩获 “专家推荐TOP10优秀解决方案” 奖项,彰显了乘云数字在金融科技领域的创新实力。

2025-05-09 18:04:03 662

原创 从第一性原理出发,探索如何做故障的根因定位

在微服务和云原生环境下进行故障定位通常会面临以下困难://文章中,“可能”二字用的比较多,建议优化成通常或其他的词语分布式系统复杂性:微服务架构中,系统被拆分为多个小型服务,每个服务通常运行在不同的容器或虚拟机中,甚至可能部署在不同的云平台上。当一个问题发生时,需要跨多个服务、多个主机或者多个云服务来追踪问题的根源,这增加了故障定位的复杂性服务间依赖性:微服务架构中,各个服务之间通常通过API或消息传递进行通信。如果某个服务出现问题,可能会影响到其它依赖的服务,造成级联故障。

2025-05-09 14:00:13 950

原创 基于因果AI与DeepSeek的故障定位实践:技术解析与落地应用

整个输出的结果可解释性和可操作性更强,能够帮助运维人员快速理解业务生产环境中故障发生的前因后果,通过将业务生产情境数据与DeepSeek大模型的专家知识结合,生成的故障根因分析结论更详细,更专业,更契合实际情况。选择最有价值的故障场景,从各个数据源(指标,日志,链路,业务数据)抽取有价值的数据并执行数据清洗,转化成标准的数据格式供机器学习模型使用;我们可以看到,基于因果AI的故障定位方案以及基于DeepSeek的故障定位方案两者通过不同的推理方法,针对同一个故障场景,产生了一致的故障根因分析结果。

2025-05-09 13:59:04 1116

原创 【故障定位系列】容器CPU问题引起的故障如何快速排查

当生产环境中的容器CPU出现异常时,可能会引发上层业务出现一系列问题,比如业务请求缓慢、网页卡顿甚至崩溃等,如果没有一个有效的故障定位方法,运维人员很难从海量的告警信息中快速找到根本原因并解决问题。

2025-05-08 18:49:09 926

原创 第三届eBPF开发者大会上,乘云技术专家分享eBPF在故障定位场景中的应用

2025年4月19日,西安邮电大学计算机学院的在长安校区如期举行。本届大会选择以线下举办、线上同步直播的形式进行,吸引了众多技术爱好者和行业专家的关注。乘云数字技术专家匠心受邀参加,并为大家呈上了“ebpf在故障定位中的应用”的主题演讲。

2025-04-28 10:55:45 750

原创 【故障定位系列】基于DeepSeek的故障定位大揭秘

引入DeepSeek后,大模型承担更多智能化工作,我们只需要提供数据源即可。

2025-04-24 15:42:19 1053

原创 开放注册!RootTalk Sandbox沙盒系统正式上线

RootTalk SandBox可以帮助您解决故障场景难以清晰定义、对故障定位的级别和颗粒度不满意、故障定位时间所需时间太长、对于定位结果的可解释性总是摇头、所有故障定位效果难以量化等问题。

2025-04-22 15:37:17 417

原创 【故障定位系列】服务&接口双粒度动态拓扑,精准定位共享连接池故障

以共享连接池场景为例,提出一种利用服务&接口双粒度动态拓扑进行故障定位的方案。

2025-04-09 15:12:26 969 1

原创 【故障定位系列】电商业务系统告警频发,如何快速实现应用接口级故障定位

Web应用故障如何实现接口级别的根因定位?利用算法和接口耗时分解,可轻松解决难题。文中有演练和定位方法,结合RootTalk Sandbox(https://sandbox.databuff.com/),可以立即上手体验。

2025-04-03 15:10:30 858

原创 RUM性能监控之数据埋点

前端数据埋点是一种常见的技术手段,它能够通过代码或工具在前端应用中采集用户行为、页面性能、错误日志等数据,帮助开发者或产品经理分析用户操作路径、诊断问题并优化体验。简单来说,埋点就是“在需要的位置记录下关键事件的发生和相关信息”,比如记录用户点击了某个按钮,页面加载花费了多少时间,或某个 API 请求是否成功。下文中将详细介绍数据埋点的价值、目标、埋点方式以及常见的挑战与解决方案。

2025-02-17 09:32:10 2443

原创 RUM实践-累计布局偏移(CLS)的探索

优化网页性能,提升用户体验,Google 的 Core Web Vitals 标准中 CLS 至关重要。本文揭秘如何用 DATABUFF RUM 工具改善 CLS,打造稳定流畅的页面体验。

2025-01-21 17:46:50 902

原创 RUM实践-最大内容绘制(LCP)优化

LCP(最大内容绘制)是衡量网页加载速度的重要指标,反映用户首次看到主要内容的时间。优化LCP可以提升用户体验,包括加快服务器响应、减少阻塞资源、优化图片等。

2025-01-09 11:24:45 813

原创 业务观测:从定义到场景化分析

业务事件是指与特定业务逻辑相关的操作或事件。为了能够以业务视角进行观测,我们需要先对业务事件进行定义,明确其业务含义。例如,将 web应用服务 中的 POST /user/login 请求定义为“登录”业务。业务场景是指由多个业务事件组成的业务流程。通过创建业务场景,可以将各个业务事件串联起来,形成一个完整的业务流程进行分析。

2024-12-16 17:39:18 970

原创 【喜报】华夏银行联合乘云数字获评 “中国信通院可观测性实践典型案例“

华夏银行联合乘云数字打造的“应用可观测性及故障定位技术实践”从100多家申报案例中脱颖而出,荣获 银行业可观测实践典型案例殊荣。

2024-12-13 10:56:53 293

原创 杭州乘云联合信通院发布《云计算智能化可观测性能力成熟度模型》

《云计算智能化可观测性能力成熟度模型》行业标准正式发布。该标准由中国信通院牵头,移动云、阿里云、中兴、科来、浪潮、乘云数字、腾讯云、等行业技术专家共同参与撰写。

2024-12-13 10:09:48 1075

原创 某充电桩业务服务内存监控和程序行为分析

在当今数据驱动的环境中,理解内存指标和程序行为对于确保应用程序的性能和可靠性至关重要。在依赖实时数据处理和高可用性的行业中尤其如此。通过利用可观测工具,可以深入了解应用程序如何使用内存,识别性能瓶颈,观察系统运行状态。而且随着最近几年业务系统的复杂性增加,很多高负荷的组件,需要更多的内存去运行,而且这些组件对性能的要求又比较严苛。所以通过监控内存指标,分析程序行为并对行为进行异常预测和及时告警就显得很重要。

2024-11-29 09:58:13 765

原创 OpenTelemetry 赋能DevOps流程的可观测性革命

深入探讨 OpenTelemetry 如何与左移和 GitOps 策略相结合,赋能 DevOps 流程中的各个环节。

2024-11-15 17:25:02 1415

原创 【最新资讯】乘云数字 荣获中国信通院“稳定性保障实验室理事单位证书”!

近日,乘云数字荣获中国信通院稳定性保障实验室理事单位证书!

2024-11-06 10:58:02 421

原创 【最新资讯】乘云数字荣获信创工委会“技术活动单位”证书!

乘云数字经成为中国电子工业标准化技术协会、信息技术应用创新工作委员会技术活动单位!

2024-11-06 10:51:01 307

原创 JVM性能优化实战手册:从监控到调优策略

在当今高度依赖Java技术栈的软件开发领域,Java虚拟机(JVM)的性能优化是提升系统响应速度、降低资源消耗、确保服务稳定性的关键环节。本文旨在深入探讨围绕DataBuff驱动的JVM性能优化实战,从监控到实施调优策略的全过程,为读者提供一套实战性强、可操作的优化指南。

2024-10-31 16:47:24 1297

原创 RUM性能优化之图片加载

RUM通过浏览器脚本收集用户访问数据,能够帮助开发者根据真实体验优化网站。本文深入探讨RUM 在图片加载性能优化中的应用,旨在为网站开发者提供实用的策略和技巧。

2024-10-12 11:24:05 2052 1

原创 企业如何选择合适的可观测产品

数字化进程的推进,使得不同企业对于数字化可观测产品提出了各种差异化的需求。本文先是具体分析了不同类型的企业对于可观测产品的直接需求和痛点,描述了可观测产品的所能提供的更丰富的实际应用场景。紧接着从开源产品,国外商业产品,以及databuff产品分别阐述各自的解决方案特性。最后,本文给出了针对不同类型企业选择可观测产品所需要考虑的主要策略和原则方针。

2024-09-24 14:16:10 948

原创 Zabbix 2024 中国峰会在上海举办,Databuff 携最业界领先研发成果重磅亮相

其中展示了利用可观测技术实现故障定位的优秀案例,引起了场下参会人员的关注,包括Alexei在内的诸多行业内专家都表示对此非常感兴趣,现场座无虚席。大会开始,Zabbix创始人Alexei Vladishev介绍了Zabbix7.0新功能以及未来的发展蓝图。会场外,乘云Databuff展台上人头攒动,参会者们纷纷前来咨询,我们为大家提供了产品资料、可观测性建设指南。9月13日,Zabbix中国峰会在上海圆满结束。后续,我们会将乘云Databuff在本次大会中演讲的内容和技术细节做好整理并分享出来,敬请期待!

2024-09-18 09:54:38 389

原创 一文带你了解可观测领域中APM与eBPF的技术差异

近年来,随着eBPF技术的兴起,很多人有这样的疑惑:eBPF和APM有什么区别?他们是竞争关系还是合作关系?本文将就此展开讨论,并给出切实有效的落地方案。APM全称:Application Performance Management。目前市场上的APM方案大多是参考Google的Dapper(大规模分布式系统的跟踪系统)实现的,如Cat、Skywalking。

2024-08-29 18:08:27 960

原创 OpenTelemetry:新一代的开源可观测性标准

OpenTelemetry是由OpenTracing和OpenCensus两个开源项目合并而成,由云原生计算基金会(CNCF)托管。该项目旨在提供一套标准化的、跨语言的观测性工具,帮助开发人员和运维人员更好地理解和管理分布式系统的性能和行为。通过统一的Metrics(指标)、Logs(日志)和Traces(追踪)数据模型,OpenTelemetry使得数据收集、处理和分析变得更加高效和便捷。

2024-08-15 17:56:10 3133

原创 RUM技术探索:前端监控数据采集与实践

RUM前端监控让开发者能够深入了解应用的表现情况,以及用户是如何与其互动的。本文将深入探讨前端监控的基本原理和实际操作方法,讲述Databuff在这方面是怎么做的。DataBuff RUM功能即将发布,带来新的用户体验,敬请期待!

2024-08-06 10:30:02 845

原创 最新资讯!2024可信云大会重磅发布《可观测性能力建设指南》!

指南》是一本能够帮助企业建设、完善可观测性系统,助力企业加快、稳固数字化转型的指导性报告,报告中精心设计了一套全方位可观测性建设蓝图,覆盖建设目标、建设方案、建设路径、技术运营、应用场景多个方面,还提出了对未来可观测技术的展望。《指南》为企业在各领域内的服务与技术创新提供了技术保障,助力企业在保障客户系统稳定性的同时,不断优化用户体验、支撑业务增长、降低业务风险、优化产品和服务、快速反应市场变化、提高客户满意度和口碑,携手客户共赴数字化转型的新征程。为了帮助企业规划其可观测性建设的路径,

2024-07-25 10:00:27 375

原创 乘云数字受邀Zabbix MeetUp济南站,分享《DataBuff在打造可观测性数据底座上的探索》

7月20日,Zabbix主办的MeetUp线下活动在济南圆满举行,众多技术大咖汇集现场,交流技术知识、分享先进的思想。乘云数字受邀参加此次盛宴,创始人兼CEO向成钢在现场发表了关于“DataBuff在打造可观测性数据底座上的探索”的主题演讲。过去单点的监控技术一直在沿着线性演进的技术路线上做“加法”,而云在做“减法”。传统的监控技术已经难以应对云原生带来的挑战。数字化应用从业务需求的角度对实时性准确性提出了更高的要求,而底层基础设施云化微服务化的趋势,对稳定性提出了更大的挑战:如何构建端到端全链路跟踪?

2024-07-23 10:53:20 1044

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除