elasticsearch集群CPU不稳定的问题排查

本文介绍了针对阿里云Elasticsearch集群进行性能优化的策略,包括删除无用索引、调整索引分片、设置索引模板和定期删除过期索引。通过这些方法可以有效解决CPU使用率不稳定的问题,提高资源利用率,确保数据的均衡分布。同时,提供了Go语言实现的示例代码用于自动删除过期索引。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题

用的是阿里云Elasticsearch,数据节点3个:
在这里插入图片描述
节点CPU时高时低,很不稳定
在这里插入图片描述

解放方案

内存和cpu使用率偏高的情况,可以从以下四个方面考虑:

  1. 降低并发写入量、删除下无用的索引释放资源(尤其是.monitor开头的日志索引,可设置保留周期)
  2. 考虑清理索引缓存, POST/索引名/_cache/clear?fielddata=true
  3. 考虑升配集群扩容实例规格
  4. 查看有索引分片是否合理

删除无用的索引

考虑清除.monitor开头的索引监控数据,也可以删除一个月以前的一些日志索引,注意删除索引同时也会删除数据。
在这里插入图片描述
在这里插入图片描述
后续可以补充一个定时任务:去获取并删除超过一定时间的索引。

查看有索引分片

在这里插入图片描述

从索引列表中可以看到索引的分片是5,而目前集群数据节点数是3,这会导致节点之间存在不均衡的负载分布,那么具有更多分片的节点的资源使用率将更高,并且瞬时平均负载将高于其他节点。这也是导致CPU不稳定的主要原因。
所以考虑优化分片数调整为3,或者3的倍数,让数据均摊到每个数据节点上。

索引分片调整

在这里插入图片描述
ES默认的分片配置就是5-1,需要添加两个参数来修改:

"number_of_shards": "3",//设置主分片为3
"number_of_replicas": "1"//设置副分片为1

整个配置文件如下:

{
  "order": -2147483647,
  "index_patterns": [
    "*"
  ],
  "settings": {
    "index": {
      "search": {
        "slowlog": {
          "level": "info",
          "threshold": {
            "fetch": {
              "warn": "200ms",
              "trace": "50ms",
              "debug": "80ms",
              "info": "100ms"
            },
            "query": {
              "warn": "500ms",
              "trace": "50ms",
              "debug": "100ms",
              "info": "200ms"
            }
          }
        }
      },
      "refresh_interval": "10s",
      "unassigned": {
        "node_left": {
          "delayed_timeout": "5m"
        }
      },
      "indexing": {
        "slowlog": {
          "level": "info",
          "threshold": {
            "index": {
              "warn": "200ms",
              "trace": "20ms",
              "debug": "50ms",
              "info": "100ms"
            }
          },
          "source": "1000"
        }
      },
      "number_of_shards": "3",
      "number_of_replicas": "1"
    }
  }
}

修改后之影响之后创建的索引,之前创建的索引需要等过期清理。
修改后可以看到一些新建的索引已经生效,但新建Jaeger的索引还是5-1
在这里插入图片描述
Jaeger是做链路追踪的工具,使用elasticsearch作为存储引擎。可能Jaeger去创建ES索引的时候会指定分片,所以导致阿里云自动创建索引的配置失效了。
在ES上设置template/default为索引添加默认设置
在这里插入图片描述
在这里插入图片描述

PUT _template/default
{
    "index_patterns" : ["*"],
    "order" : 1,
    "settings": {
        "number_of_shards": "3",
        "number_of_replicas": "1"
    }
}

配置后执行可以看到之后的Jaeger创建的索引都是3主分片
在这里插入图片描述

定期删除过期索引

package main

import (
	"context"
	"fmt"
	"time"

	"github.com/olivere/elastic/v7"
)

type Elk struct {
	Client     *elastic.Client
}

const (
	url      = "http://es-cn-xxxxxxxx.elasticsearch.aliyuncs.com:9200"
	user     = "elastic"
	password = "123456"
)

func main() {
	elk, err := NewElk(url, user, password)
	if err != nil {
		panic(err)
	}
	ctx := context.Background()
	columns := []string{"index", "creation.date"}
	expireTime := time.Now().AddDate(0, 0, -14).Unix()
	indexs, err := elk.Client.CatIndices().Columns(columns...).Do(ctx)
	if err != nil {
		panic(err)
	}
	for _, index := range indexs {
		if index.CreationDate < expireTime {
			_, err := elk.Client.Delete().Index(index.Index).Do(ctx)
			if err != nil {
				panic(err)
			}
		}
	}
	fmt.Println(indexs)
}

func NewElk(url, user, password string) (*Elk, error) {
	Es, err := elastic.NewClient(
		elastic.SetSniff(false),
		elastic.SetURL(url),
		elastic.SetBasicAuth(user, password),
	)
	if err != nil {
		panic("New ELK client error:" + err.Error())
	}

	e := &Elk{
		Client:     Es,
	}

	return e, nil
}

参考文章

ElasticSearch索引模板的使用简介
Elasticsearch集群规模和性能调优

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值