更新日志
文章平均质量分 64
更新日志
云观秋毫
Kindling - OriginX故障根因推理引擎,专家智慧经验精准梳理各类分散监控指标与日志,自动化 Tracing 关联分析生成可解释的故障根因报告
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
APO v1.12更新:日志采集兼容containerd v2;数据采集优化;多项问题修复
本次 apo-one-agent 的版本更新中对 ilogtail进行了升级,升级后支持在 containerd v2 环境下采集容器日志。如您手动修改过日志采集配置,需要在更新后重新配置;如您使用默认配置,则无需修改,升级探针后会自动适配。原创 2025-09-18 11:50:55 · 911 阅读 · 0 评论 -
APO v1.10.0更新:自动生成故障方向和报告;内存泄漏识别;多集群支持
APO v1.10.0版本更新带来多项改进:1)新增集群标识支持数据隔离,需注意历史数据兼容性问题;2)引入AI告警故障方向识别和根因分析报告生成功能;3)增强告警分析工作流,支持多集群管理;4)优化日志查询性能、数据组功能及告警分析效果;5)修复数据筛选、北极星指标等多项问题。该版本显著提升了故障诊断能力和系统稳定性。原创 2025-08-06 16:55:36 · 458 阅读 · 0 评论 -
APO v1.9.0 更新:告警事件筛选;优化告警分析准确性;全量日志优化
APO v1.9.0 更新:告警事件筛选;优化告警分析准确性;全量日志优化原创 2025-06-26 15:27:31 · 352 阅读 · 0 评论 -
APO v1.8.0 更新:全新亮色主题;告警详情页;优化告警智能分析
APO v1.8.0 版本更新引入了多项新功能和优化,包括主题切换功能(暗黑模式与明亮模式)、告警事件详情页的添加,以及告警根因分析能力的增强,特别是对应用慢延时、应用错误和资源可用性告警的自动诊断。此外,版本还优化了 apo-otel-collector 的稳定性,增强了对容器运行时标签的支持,并修复了数据接入和用户登录认证过期时的报错问题。同时,SkyWalking Java 探针的支持也得到了升级,提高了与 SkyWalking 探针的兼容性。原创 2025-05-20 09:31:08 · 362 阅读 · 0 评论 -
APO v1.7.0 更新:用户角色权限管理;CPU火焰图数据;优化根因分析效果
工作流:大幅提高告警有效性分析和告警根因分析工作流的分析速度,降低token消耗量;改进工作流执行页面的展示效果。(企业版)告警分析:在大模型根因分析过程中展示匹配的真实数据,增强推理的可解释性。新增基于角色的用户权限控制,现在可以通过给用户分配角色赋予不同的系统权限。告警事件:新增告警降噪率,新增告警与解决事件总览,优化表格展示。(企业版)告警分析:优化告警事件的分析速度和展示效果。(企业版)告警分析:支持采集和展示火焰图数据。服务详情:优化页面布局和展示效果。原创 2025-04-25 11:04:17 · 309 阅读 · 0 评论 -
APO v1.6.0 更新:告警工作流优化;服务列表排序;故障现场数据关联
本次 APO v1.6.0 版本更新带来了以下内容。注意本次更新存在破坏性变更,请参考官网的“安装手册”-“版本升级手册”进行升级。原创 2025-03-31 11:37:16 · 197 阅读 · 0 评论 -
APO v1.5.0更新:新增工作流编排、数据接入和告警事件列表;新增Traces数据采样
您可以根据实际环境情况选择数据接入的方式,目前支持安装新的APO探针(基于OpenTelemetry)采集链路追踪数据,也支持对接已有的OpenTelemetry+Jaeger和SkyWalking数据源。本次更新带来了专为可观测性系统设计的Agentic工作流编排功能,通过使用工作流,能将你的专家经验转变为可复用的执行流程,赋予智能体专业决策能力,提高故障排查效率。详细配置方式请参考“文档”-“配置Traces数据采样”。与传统的头采样和尾采样均不同,APO基于分布式采样策略实现了Traces数据采样。原创 2025-03-17 10:36:49 · 860 阅读 · 0 评论 -
APO v1.4.0 更新:新增数据分组和数据权限控制功能
本次更新,APO 为大家带来了“团队”和“数据组”两个概念,让数据管理和团队协作变得更加简单和高效。现在,您可以轻松地将用户组织成不同的团队,并且为每个团队或用户设置个性化的数据访问权限。数据组功能可以将命名空间或服务分组,让不同团队和用户专注于分析他们关心的信息。要使用数据组功能,点击“系统管理”-“数据组管理”,在该页面中您可以新增数据组,通过选择“命名空间”或“服务名”向数据组中添加包含的数据内容。创建数据组后,点击“授权”向用户或团队授予该数据组的访问权限。原创 2025-02-17 13:49:06 · 321 阅读 · 0 评论 -
APO v1.3.0 更新:支持将第三方告警事件接入平台,统一关联分析告警事件
在 APO v1.3.0 版本中,我们引入了对第三方告警事件的全面支持,旨在为用户提供一个更为集成和高效的告警分析平台。此次更新允许用户将来自不同来源的告警信息统一接入APO平台,从而实现告警事件的集中管理和关联分析。目前支持接入Prometheus(AlertManager)、Zabbix 和任意支持以 Webhook 发送的告警事件。告警接入后在服务详情中会自动将相关告警事件关联到服务上。原创 2025-02-05 10:19:38 · 377 阅读 · 0 评论 -
APO v0.8.0 更新:告警通知支持钉钉和微信;主机指标大盘;若干问题修复
本次更新,APO 带来了一些新功能,并对若干问题进行了修复。原创 2024-11-01 13:46:43 · 450 阅读 · 0 评论 -
APO v0.4.0 发布:新增影响面分析;新增调用数据库指标;优化告警事件关联展示
APO 新版本 v0.4.0 正式发布!原创 2024-09-18 10:19:05 · 601 阅读 · 0 评论 -
Kindling-OriginX v1.4.0 发布:开箱即用,无需对接;自动关联故障节点的上下游关系,通过延时曲线辅助判断根因节点
在本次更新中,为了进一步加快排障速度,Kindling-OriginX优化了故障诊断页面,自动将故障节点的上下游关系关联起来,并展示了节点的响应耗时,使故障节点间的依赖关系和耗时相关性一览无余,在多节点发生故障时更容易找到根因;我们还在首页中将SLO状态与请求次数关联在一起,辅助用户判断SLO状态变化的原因。从该版本开始,OriginX安装后开箱即用,无需再对接外部 Tracing 系统,我们大大简化了安装过程,欢迎安装试用!原创 2024-06-13 09:41:31 · 915 阅读 · 0 评论 -
Kindling-OriginX v1.1.0 发布:有效预防P0故障发生、开源Tracing适配、多项性能与体验优化
我们也将这些错误场景添加到了故障注入平台中,大家可以通过在线Demo进行体验,亦可通过部署故障注入平台对自身可观测体系进行检验。现在Grafana支持将部署在集群内部的VictoriaMetrics作为 Datasource,配置方法见官网更新日志。支持超时错误场景的故障根因推导,清晰展示错误根因。支持超时错误场景的故障根因推导,清晰展示错误根因。SLO状态鼠标滑动自动选中,无需点击展示详细信息,支持单击锁定。故障列表页新增故障服务异常占比图及单个故障服务的筛选。错误故障列表新增“故障初因”列。原创 2024-03-18 16:58:27 · 459 阅读 · 0 评论 -
Kindling-OriginX v1.3.0 发布:自动关联锁堆栈与锁时间,精准定位问题代码;新增代码火焰图,识别热点代码段
本次更新中,Kindling-OriginX 创新性地实现了慢故障 Trace 与代码堆栈的自动化关联。对于由于代码中锁问题导致的慢故障,可以快速通过“锁耗时分析”能力定位到相关代码堆栈,确定问题代码段。针对性能分析往往较复杂,无法快速定位的难题,新增热点代码火焰图功能,无需相关经验也能实现快速诊断性能问题。锁是开发高性能、高可靠程序的关键因子之一,同时也往往是导致性能问题和故障隐患的根源之一。很多系统在业务平峰期一切正常,高峰期间并发量增大就会出现各种性能问题,这往往都是由于锁问题导致。原创 2024-04-24 17:56:56 · 498 阅读 · 0 评论 -
Kindling-OriginX v1.2.0 发布:自动识别分类故障初因,排查效率加倍;推导过程关联自定义指标,适配个性化场景
通过与用户的不断沟通与交流,我们深挖如何通过技术和产品能力提升用户在生产环境中的排障效率和操作便捷性。目前使用中,当故障列表中存在大量慢故障时,用户需要分别打开多个故障报告进行查阅,需要花费大量时间来对故障进行初步的识别和归类。原创 2024-04-08 17:47:10 · 508 阅读 · 0 评论
分享