- 博客(37)
- 收藏
- 关注
原创 故障定位案例 | 服务&接口双粒度动态拓扑,精准定位共享连接池故障
以共享连接池场景为例,提出一种利用服务&接口双粒度动态拓扑进行故障定位的方案。
2025-04-09 15:12:26
899
原创 【故障定位系列】电商业务系统告警频发,如何快速实现应用接口级故障定位
常见的针对Web应用的故障定位方案,大多只能定位到服务级别,然而很多情况下我们需要知道对应的应用接口的情况,才能更有效的解决问题。如何才能实现更加细化的接口级别的根因定位?本文以某个电商业务为例,来解答这个问题。
2025-04-08 10:30:55
599
原创 【故障定位系列】电商业务系统告警频发,如何快速实现应用接口级故障定位
Web应用故障如何实现接口级别的根因定位?利用算法和接口耗时分解,可轻松解决难题。文中有演练和定位方法,结合RootTalk Sandbox(https://sandbox.databuff.com/),可以立即上手体验。
2025-04-03 15:10:30
790
原创 RUM性能监控之数据埋点
前端数据埋点是一种常见的技术手段,它能够通过代码或工具在前端应用中采集用户行为、页面性能、错误日志等数据,帮助开发者或产品经理分析用户操作路径、诊断问题并优化体验。简单来说,埋点就是“在需要的位置记录下关键事件的发生和相关信息”,比如记录用户点击了某个按钮,页面加载花费了多少时间,或某个 API 请求是否成功。下文中将详细介绍数据埋点的价值、目标、埋点方式以及常见的挑战与解决方案。
2025-02-17 09:32:10
2304
原创 RUM实践-累计布局偏移(CLS)的探索
优化网页性能,提升用户体验,Google 的 Core Web Vitals 标准中 CLS 至关重要。本文揭秘如何用 DATABUFF RUM 工具改善 CLS,打造稳定流畅的页面体验。
2025-01-21 17:46:50
753
原创 RUM实践-最大内容绘制(LCP)优化
LCP(最大内容绘制)是衡量网页加载速度的重要指标,反映用户首次看到主要内容的时间。优化LCP可以提升用户体验,包括加快服务器响应、减少阻塞资源、优化图片等。
2025-01-09 11:24:45
604
原创 业务观测:从定义到场景化分析
业务事件是指与特定业务逻辑相关的操作或事件。为了能够以业务视角进行观测,我们需要先对业务事件进行定义,明确其业务含义。例如,将 web应用服务 中的 POST /user/login 请求定义为“登录”业务。业务场景是指由多个业务事件组成的业务流程。通过创建业务场景,可以将各个业务事件串联起来,形成一个完整的业务流程进行分析。
2024-12-16 17:39:18
912
原创 【喜报】华夏银行联合乘云数字获评 “中国信通院可观测性实践典型案例“
华夏银行联合乘云数字打造的“应用可观测性及故障定位技术实践”从100多家申报案例中脱颖而出,荣获 银行业可观测实践典型案例殊荣。
2024-12-13 10:56:53
232
原创 杭州乘云联合信通院发布《云计算智能化可观测性能力成熟度模型》
《云计算智能化可观测性能力成熟度模型》行业标准正式发布。该标准由中国信通院牵头,移动云、阿里云、中兴、科来、浪潮、乘云数字、腾讯云、等行业技术专家共同参与撰写。
2024-12-13 10:09:48
838
原创 某充电桩业务服务内存监控和程序行为分析
在当今数据驱动的环境中,理解内存指标和程序行为对于确保应用程序的性能和可靠性至关重要。在依赖实时数据处理和高可用性的行业中尤其如此。通过利用可观测工具,可以深入了解应用程序如何使用内存,识别性能瓶颈,观察系统运行状态。而且随着最近几年业务系统的复杂性增加,很多高负荷的组件,需要更多的内存去运行,而且这些组件对性能的要求又比较严苛。所以通过监控内存指标,分析程序行为并对行为进行异常预测和及时告警就显得很重要。
2024-11-29 09:58:13
675
原创 OpenTelemetry 赋能DevOps流程的可观测性革命
深入探讨 OpenTelemetry 如何与左移和 GitOps 策略相结合,赋能 DevOps 流程中的各个环节。
2024-11-15 17:25:02
1277
原创 JVM性能优化实战手册:从监控到调优策略
在当今高度依赖Java技术栈的软件开发领域,Java虚拟机(JVM)的性能优化是提升系统响应速度、降低资源消耗、确保服务稳定性的关键环节。本文旨在深入探讨围绕DataBuff驱动的JVM性能优化实战,从监控到实施调优策略的全过程,为读者提供一套实战性强、可操作的优化指南。
2024-10-31 16:47:24
1081
原创 RUM性能优化之图片加载
RUM通过浏览器脚本收集用户访问数据,能够帮助开发者根据真实体验优化网站。本文深入探讨RUM 在图片加载性能优化中的应用,旨在为网站开发者提供实用的策略和技巧。
2024-10-12 11:24:05
1940
1
原创 企业如何选择合适的可观测产品
数字化进程的推进,使得不同企业对于数字化可观测产品提出了各种差异化的需求。本文先是具体分析了不同类型的企业对于可观测产品的直接需求和痛点,描述了可观测产品的所能提供的更丰富的实际应用场景。紧接着从开源产品,国外商业产品,以及databuff产品分别阐述各自的解决方案特性。最后,本文给出了针对不同类型企业选择可观测产品所需要考虑的主要策略和原则方针。
2024-09-24 14:16:10
864
原创 Zabbix 2024 中国峰会在上海举办,Databuff 携最业界领先研发成果重磅亮相
其中展示了利用可观测技术实现故障定位的优秀案例,引起了场下参会人员的关注,包括Alexei在内的诸多行业内专家都表示对此非常感兴趣,现场座无虚席。大会开始,Zabbix创始人Alexei Vladishev介绍了Zabbix7.0新功能以及未来的发展蓝图。会场外,乘云Databuff展台上人头攒动,参会者们纷纷前来咨询,我们为大家提供了产品资料、可观测性建设指南。9月13日,Zabbix中国峰会在上海圆满结束。后续,我们会将乘云Databuff在本次大会中演讲的内容和技术细节做好整理并分享出来,敬请期待!
2024-09-18 09:54:38
332
原创 一文带你了解可观测领域中APM与eBPF的技术差异
近年来,随着eBPF技术的兴起,很多人有这样的疑惑:eBPF和APM有什么区别?他们是竞争关系还是合作关系?本文将就此展开讨论,并给出切实有效的落地方案。APM全称:Application Performance Management。目前市场上的APM方案大多是参考Google的Dapper(大规模分布式系统的跟踪系统)实现的,如Cat、Skywalking。
2024-08-29 18:08:27
760
原创 OpenTelemetry:新一代的开源可观测性标准
OpenTelemetry是由OpenTracing和OpenCensus两个开源项目合并而成,由云原生计算基金会(CNCF)托管。该项目旨在提供一套标准化的、跨语言的观测性工具,帮助开发人员和运维人员更好地理解和管理分布式系统的性能和行为。通过统一的Metrics(指标)、Logs(日志)和Traces(追踪)数据模型,OpenTelemetry使得数据收集、处理和分析变得更加高效和便捷。
2024-08-15 17:56:10
2775
原创 RUM技术探索:前端监控数据采集与实践
RUM前端监控让开发者能够深入了解应用的表现情况,以及用户是如何与其互动的。本文将深入探讨前端监控的基本原理和实际操作方法,讲述Databuff在这方面是怎么做的。DataBuff RUM功能即将发布,带来新的用户体验,敬请期待!
2024-08-06 10:30:02
767
原创 最新资讯!2024可信云大会重磅发布《可观测性能力建设指南》!
指南》是一本能够帮助企业建设、完善可观测性系统,助力企业加快、稳固数字化转型的指导性报告,报告中精心设计了一套全方位可观测性建设蓝图,覆盖建设目标、建设方案、建设路径、技术运营、应用场景多个方面,还提出了对未来可观测技术的展望。《指南》为企业在各领域内的服务与技术创新提供了技术保障,助力企业在保障客户系统稳定性的同时,不断优化用户体验、支撑业务增长、降低业务风险、优化产品和服务、快速反应市场变化、提高客户满意度和口碑,携手客户共赴数字化转型的新征程。为了帮助企业规划其可观测性建设的路径,
2024-07-25 10:00:27
297
原创 乘云数字受邀Zabbix MeetUp济南站,分享《DataBuff在打造可观测性数据底座上的探索》
7月20日,Zabbix主办的MeetUp线下活动在济南圆满举行,众多技术大咖汇集现场,交流技术知识、分享先进的思想。乘云数字受邀参加此次盛宴,创始人兼CEO向成钢在现场发表了关于“DataBuff在打造可观测性数据底座上的探索”的主题演讲。过去单点的监控技术一直在沿着线性演进的技术路线上做“加法”,而云在做“减法”。传统的监控技术已经难以应对云原生带来的挑战。数字化应用从业务需求的角度对实时性准确性提出了更高的要求,而底层基础设施云化微服务化的趋势,对稳定性提出了更大的挑战:如何构建端到端全链路跟踪?
2024-07-23 10:53:20
928
原创 异常检测之多指标关联分析及告警通知
【示例】服务实例多指标异常检测, 【服务实例响应时间】服务实例响应时间超过正常水平, 【响应时间】错误率动态基线] , [数据库服务] , [web应有服务] , [192.168.24.14] 产生告警,请及时关注。上文展示了如何在复杂的IT运维环境中,通过Databuff平台中应用服务性能的多个指标、多条件、多种检测算法,可以有效地监控应用服务、服务实例是否健康,便于运维人员及时发现问题,辅助分析定位问题源头。选取服务平均响应时间,服务错误率,服务cpu使用率,服务内存使用率,服务性能指标。
2024-07-22 11:18:39
1089
原创 《可观测性能力建设指南(2024年)》即将在2024可信云大会上发布
2023年9月,稳定性保障实验室联合多家企业发布《可观测性建设成熟度模型白皮书》,这标志着可观测性技术逐步向标准化和成熟化迈进。“可观测性”最早起源于控制理论,近年来这一概念在IT运维领域发展迅速。随着传统企业数字化转型的脚步,IT基础设施逐步上云,业务应用也随之从单一的本地部署转变为灵活的云原生架构,传统的监控、运维方案不再适用新的环境,这部《指南》旨在进一步细化与强化可观测性体系建设的标准,确保可观测性系统的健全与高效,为企业的数字化转型进程加速并巩固成果保驾护航。:2024年7月23日(下周二)
2024-07-19 18:56:12
526
原创 云原生NPM数据采集和指标计算方法
DataBuff带你深入了解云原生NPM:解析关键数据结构,展示如何捕获性能指标并与应用关联,助您优化网络性能、快速解决故障。敬请期待后续eBPF应用详解。
2024-07-11 16:48:15
1266
原创 深入理解JVM:内存管理与垃圾回收机制探索
JVM是什么?Java虚拟机(JVM)是Java程序的运行环境,它负责将编写的Java字节码转换为特定操作系统上的机器指令,并管理程序的运行时环境。简而言之,JVM是Java跨平台特性的基石。JVM的重要性JVM允许Java程序在不同的硬件和操作系统上无缝运行,无需重新编译。它不仅管理内存分配、垃圾回收等底层任务,还通过即时编译(JIT)提升运行效率,确保了Java应用的高性能与可移植性。
2024-07-08 10:18:18
933
原创 如何打造开放领先的可观测性数据底座
6月28日,龙蜥社区“走进系列”第 11 期-智能可观测运维技术MeetUp活动在成都举行。活动邀请了来自阿里云、谐云科技、乘云数字、中兴通讯、云杉网络、浪潮信息等企业和社区的资深技术专家在此进行了一次深度的技术交流和分享,聚焦系统运维的前沿技术,深入探讨在Al、eBPF 等技术的不断发展浪潮中,运维技术将会向何种方向迈进。会上,乘云数字的副总裁张怀鹏,做了一次关于“如何打造开放领先的可观测性数据底座”的分享。
2024-07-02 09:57:07
567
原创 浅谈Java Profiling
在应用性能/详细分析/热点方法 标签页能够看到当前应用内每个业务代码入口的cpu使用时间占整体应用的百分比,假设 ServiceController.endpoints 请求执行耗费cpu比例飙高,那么可以按层级打开,类似火焰图形式查看最顶层的代码及其耗费cpu比例。arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,可方便地记录分析cpu,内存分配,锁等事件(底层使用async-profiler实现)。
2024-06-27 17:03:22
739
原创 抑制告警风暴,我们可以做些什么
在日常运维工作中,告警风暴总是作为一个不可忽视但又无法避免的问题,本文带大家了解DataBuff是如何解决告警风暴的
2024-06-19 16:30:04
791
原创 云原生NPM与传统NPM的差异
以eBPF技术为主的NPM监控在市场日趋火热,本文主要以Packet作为处理目标展开对传统NPM与云原生NPM的差异化分析,带领大家了解二者的优劣势。
2024-06-12 16:21:30
745
1
原创 JVM关键指标梳理及DATABUFF监控实践
在现代软件开发与运维领域,Java虚拟机(JVM)的性能监控至关重要,它直接关系到应用的稳定性、响应速度及资源利用率。本文深入剖析了JVM的核心监控指标,从内存管理的细微之处到线程调度的宏观视图,再到垃圾回收(GC)策略的评估与优化,为读者构建了一个全面而深入的知识框架。另外,我们通过Databuff这一先进的数据可观测平台展示了如何将理论知识转化为实践行动,以应对实际工作中的各种挑战。
2024-06-07 09:50:35
1319
原创 RUM是什么?它能解决什么问题?
随着数字化转型的普及,数字化体验的要求越来越高,业务系统所有者越来越关注真实终端的用户体验质量。本文将通过简单的介绍,带你了解RUM技术是什么,如何监控并改善真实用户体验的质量,它的技术原理、数据采集方法,及其能够解决的主要问题。
2024-05-31 10:36:41
805
原创 带你一起阅读《Forrester Wave:AIOps 调研报告》
根据AIOps软件供应商提供的35项标准评测,我们筛选并确定了11家最具代表性的公司。这些公司包括Datadog、Digitate、Dynatrace、Elastic、LogicMonitor、Micro Focus、New Relic、OpsRamp、ScienceLogic、Splunk和Zenoss。我们对这些公司进行了深入的研究和分析,并对它们进行了评分。这份报告详细地展示了每家供应商在评测中的表现,旨在帮助技术专业人士根据他们的需求,从这些领先的AIOps解决方案中选择最合适的解决方案。▐。
2024-05-24 17:22:24
1078
1
原创 Dubbo 全链路监控技术实践
Dubbo是国内开源的专门用于微服务之间通信的框架,背靠大厂有技术保障,有活跃的开源社区,技术成熟稳定,依赖组件少,相对于国外的比如Spring-Cloud来说上手更容易,因此广泛的被国内各行各业使用,比如电商、证券、银行等等。从上图能看到服务端的执行时间超过了客户端的等待时间,客户端等不了了抛出异常(能看到异常堆栈信息),但服务端最终还是执行成功了,有上报的span,也能看到服务端的span的时间条很长,远远超过客户端的span时间条。after:将APM数据写入Response上下文,结束span。
2024-05-21 15:08:21
362
原创 为什么要迈进NGAIOps(下一代AIOps)
自2016年Gartner首次提出AIOps概念已过去8年时间,AIOps软件工具层出不穷,这篇文章给大家介绍下什么NGAIOps? 为什么需要NGAIOps? 以及国内外的AIOps的方案路径与落地对比。
2024-05-21 14:52:34
1083
原创 看了这篇文章,不要告诉我你还不懂分布式链路
在传统的IT架构中,监控通常局限于单个节点或局部环境,但随着云原生、大数据和物联网的发展,系统的规模和复杂性急剧增加,例如,在云原生网络环境下,基础设施层(IaaS),中间平台层(PaaS)以及业务应用层(SaaS)就有着各自相对独立的运行和管理模式,这就迫切需要一种面向复杂信息环境的全局视角展现和实时问题洞察的工具。因此,随着技术的发展,越来越多的企业开始转向自动化、智能化的埋点监控方式,如使用基于字节码增强的无侵入式分布式链路追踪,以提高效率、保证数据准确性,并支持更深入的业务分析。
2024-05-21 14:37:02
1223
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人