【Elasticsearch 实战应用】

最新推荐文章于 2025-04-03 11:59:55 发布

wenshao.du

最新推荐文章于 2025-04-03 11:59:55 发布

阅读量1k

点赞数 37

文章标签： elasticsearch

本文链接：https://blog.youkuaiyun.com/weixin_37499734/article/details/145262354

版权

Elasticsearch 实战应用

在现代企业技术架构中，Elasticsearch 因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在 Spring Boot 项目中集成 Elasticsearch，进行数据索引、搜索、聚合分析等操作。

1. Elasticsearch 简介

Elasticsearch 是一个基于 Apache Lucene 构建的开源分布式搜索引擎。它具有以下特点：

高效的全文搜索：基于倒排索引，支持高效的文本搜索。
实时数据分析：支持快速查询和数据聚合，适合进行实时分析。
分布式架构：具备自动分片、复制和横向扩展能力。
灵活的数据建模：通过索引映射（Mapping）和类型（Type）配置，实现灵活的数据建模。

Elasticsearch 的核心概念包括：

索引（Index）：数据存储的逻辑容器，类似于数据库中的表。
文档（Document）：索引中的一条数据记录，类似于数据库中的行。
字段（Field）：文档中的数据项，类似于数据库中的列。
节点（Node）：Elasticsearch 集群中的单个实例。
集群（Cluster）：由多个节点组成的集合，共同承担数据存储和搜索任务。

2. 环境准备与安装

2.1 安装 Elasticsearch

你可以通过 Elasticsearch 官方网站下载并安装 Elasticsearch。这里以 Linux 环境为例，执行以下命令：

# 下载并解压 Elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.12.1-linux-x86_64.tar.gz
tar -xzf elasticsearch-7.12.1-linux-x86_64.tar.gz
cd elasticsearch-7.12.1

# 启动 Elasticsearch
bin/elasticsearch

默认情况下，Elasticsearch 会在本地的 9200 端口启动。

2.2 配置 Elasticsearch 集群

在生产环境中，通常需要配置一个集群来保证数据的高可用性和分布式处理能力。你可以在 elasticsearch.yml 配置文件中设置集群名称和节点的角色。

cluster.name: my-cluster
node.name: node-1
network.host: 0.0.0.0
discovery.seed_hosts: ["localhost"]
cluster.initial_master_nodes: ["node-1"]

2.3 确认 Elasticsearch 是否正常运行

启动成功后，可以通过浏览器或 Postman 访问 http://localhost:9200 来查看 Elasticsearch 集群的健康状态。

curl -X GET "localhost:9200/"

如果返回类似以下信息，说明集群已正常启动：

{
  "name" : "node-1",
  "cluster_name" : "my-cluster",
  "cluster_uuid" : "qEVo4nOkTQGm_LfRww9OrA",
  "version" : {
    "number" : "7.12.1",
    "build_flavor" : "default",
    "build_type" : "tar",
    "build_hash" : "c87447a00e580be660b7a9130d6d05b03d1e0f59",
    "build_date" : "2021-02-25T10:55:03.900939Z",
    "build_snapshot" : false,
    "lucene_version" : "8.8.1",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0"
  },
  "tagline" : "You Know, for Search"
}

3. 集成 Elasticsearch 到 Spring Boot 项目

3.1 添加 Maven 依赖

在 pom.xml 中添加 Elasticsearch 客户端依赖：

<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
    <version>7.12.1</version>
</dependency>

3.2 配置 `RestHighLevelClient`

通过 RestHighLevelClient 实现与 Elasticsearch 的连接。在 application.properties 中配置 Elasticsearch 地址：

elasticsearch.host=localhost
elasticsearch.port=9200

在配置类中创建客户端：

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class ElasticsearchConfig {

    @Bean
    public RestHighLevelClient client() {
        return new RestHighLevelClient(
                RestClient.builder(
                        new HttpHost("localhost", 9200, "http")
                ));
    }
}

3.3 创建 Elasticsearch 索引

在 Elasticsearch 中，数据被存储在索引中。我们可以通过 CreateIndexRequest 创建索引。假设我们要创建一个名为 user 的索引：

import org.elasticsearch.action.admin.indices.create.CreateIndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.io.IOException;

@Service
public class ElasticsearchService {

    @Autowired
    private RestHighLevelClient client;

    public boolean createIndex(String indexName) throws IOException {
        CreateIndexRequest request = new CreateIndexRequest(indexName);
        client.indices().create(request, RequestOptions.DEFAULT);
        return true;
    }
}

3.4 索引数据

在 Elasticsearch 中，数据通过文档存储。我们可以通过 IndexRequest 将数据添加到索引中：

import org.elasticsearch.action.index.IndexRequest;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.io.IOException;

@Service
public class ElasticsearchService {

    @Autowired
    private RestHighLevelClient client;

    public String createDocument(String index, String id, String jsonData) throws IOException {
        IndexRequest request = new IndexRequest(index).id(id).source(jsonData, XContentType.JSON);
        IndexResponse response = client.index(request, RequestOptions.DEFAULT);
        return response.getId();
    }
}

3.5 搜索数据

通过 SearchRequest 和 SearchSourceBuilder 构建查询，查询 user 索引中的文档：

import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

@Service
public class ElasticsearchSearchService {

    @Autowired
    private RestHighLevelClient client;

    public SearchResponse search(String index, String keyword) throws IOException {
        SearchRequest searchRequest = new SearchRequest(index);
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        searchSourceBuilder.query(QueryBuilders.matchQuery("content", keyword));
        searchRequest.source(searchSourceBuilder);
        return client.search(searchRequest, RequestOptions.DEFAULT);
    }
}

4. Elasticsearch 聚合分析

聚合分析是 Elasticsearch 强大的功能之一，常用于数据统计和分析。以下是一个按日志级别聚合的示例：

4.1 按日志级别聚合

假设我们有一个日志索引，日志包含字段 level。我们可以通过聚合分析获取不同日志级别的数量：

import org.elasticsearch.search.aggregations.AggregationBuilders;
import org.elasticsearch.search.aggregations.bucket.terms.TermsAggregationBuilder;

public void aggregateLogsByLevel(String index) throws IOException {
    TermsAggregationBuilder aggregation = AggregationBuilders.terms("log_levels").field("level.keyword");
    SearchSourceBuilder sourceBuilder = new SearchSourceBuilder().aggregation(aggregation);
    SearchRequest searchRequest = new SearchRequest(index).source(sourceBuilder);
    SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);
}

5. 性能优化与集群管理

5.1 分片与副本配置

Elasticsearch 的性能和可扩展性与分片和副本的配置息息相关。合理的分片数和副本数可以提高查询效率和集群的容错性。可以通过 index.number_of_shards 和 index.number_of_replicas 配置每个索引的分片和副本数量。

5.2 数据生命周期管理（ILM）

使用 Index Lifecycle Management (ILM) 可以自动化管理索引的生命周期，例如定义索引的过期时间、归档策略等，确保集群的稳定性和高效运行。

6. 总结

Elasticsearch 是一个功能强大的分布式搜索引擎，适用于大数据的存储和实时分析。通过与 Spring Boot 的集成，可以轻松构建搜索应用，并实现高效的数据处理和聚合分析。在实际应用中，优化集群配置、合理设计索引映射和使用 Elasticsearch 的聚合功能，可以大大提高搜索与数据分析的性能。

通过本文的实战示例，你可以快速上手 Elasticsearch，并在项目中实现数据存储、搜索与分析功能。如果你有更多问题，欢迎在评论区留言。