Amazon Web Services Elasticsearch Service使组织能够部署,保护和运行其Elasticsearch集群。 AWS Elasticsearch是一种经济高效的大规模运营方式。
在这篇文章中,我们分以下几个来说;
- 有哪些可用的指标?
- 如何添加更有意义的计算指标?
- 关键指标有哪些?
- 在哪些指标上使用异常检测动态阈值?
什么是elasticsearch?
Elasticsearch提供了一种为您的应用程序,网站和数据目录提供快速搜索体验的方法。它也可以用于监视和收集基础结构和应用程序中的日志。Elasticsearch是AWS的服务,基于Elastic的开源Elasticsearch,被称为“开源,分布式,RESTful搜索引擎”。它旨在为您的数据提供快速,相关且可扩展的搜索。
AWS Cloudwatch指标
Elasticsearch将您的Elasticsearch实例的数据点发布到Amazon CloudWatch。通过CloudWatch,您可以将有关这些数据点的统计信息作为一组有序的时间序列数据(称为指标)进行检索。对于Elasticsearch服务,Amazon列出了一些基本指标及其“建议的CloudWatch警报”。
为什么要添加自己的指标?
LogicMonitor引入了复杂数据点,以试图使人们逐渐了解度量值的价值或百分比。使用原始值(例如ClusterUsedSpace)跟踪可用容量是一项艰巨的任务。计算百分位数的复杂数据点更有意义,也更容易发出警报。
ClusterUsedSpacePercent = (ClusterUsedSpace/(ClusterUsedSpace + FreeStorageSpace))*100
CloudWatch使您能够检索https错误代码4xx和5xx作为原始值。考虑下一个问题:5xx指标的值2是好还是坏?到底有多好(或坏)?通常,当我提出这个问题时,此人会说:“取决于多少个请求”。同样,在这种情况下,计算百分位数的复杂数据点将更有意义并且更容易发出警报。
RequestCount5xxPercent = 5xx / (5xx + 4xx + 3xx + 2xx) if (5xx + 4xx + 3xx + 2xx) > 0 else 0
RequestCount4xxPercent = 4xx / (5xx + 4xx + 3xx + 2xx) if (5xx + 4xx + 3xx + 2xx) > 0 else 0
关键指标有哪些?
-
ClusterUsedSpacePercent
-
一个复杂的数据点,用于计算已使用的群集空间的百分比。默认情况下,LogicMonitor建议使用85%的警告和使用95%的错误。
-
ClusterUsedSpacePercent = (ClusterUsedSpace/(ClusterUsedSpace+FreeStorageSpace))*100
-
-
CPUUtilization
- 群集中数据节点使用的CPU资源的最大平均百分比。 LogicMonitor建议在利用率为85%时发出警告,在利用率为95%时发出错误。
-
ClusterStatusRed
- 这表明至少一个索引的主分片和副本分片未分配给集群中的节点。如果此值不为0,则LogicMonitor建议错误。
-
ClusterStatusYellow
- 这表明至少一个索引的主分片和副本分片未分配给集群中的节点。如果该值不为0,则LogicMonitor建议错误。请注意,如果您没有Elasticsearch实例的复制,则将需要编辑此指标以不向您发出警报。
-
JVMMemoryPressure
- 此度量标准显示用于集群中所有数据节点的Java堆的最大百分比。如果该值大于80,则LogicMonitor建议发出警告。
在哪些指标上使用异常检测动态阈值?
虽然预期将动态阈值和静态阈值用于关键指标,但还有其他用例。
-
例子1
为查询和获取延迟启用异常检测是一种表示服务潜在降级的方法,并且是一种在预期操作发生变化时发出预警的方法。
-
例子2
为查询和访存计数启用异常检测是一种表示系统(或新用户入职)潜在潜在异常负载的方法。
Aws elasticSearch 监控指标官方推荐文档:recommended cloudWatch alarms
原文链接:https://www.logicmonitor.com/blog/how-to-monitor-aws-elasticsearch
翻 译. 者:lee