Elasticsearch索引与数据建模优化：根据业务需求提升查询性能-优快云博客

本文链接：https://blog.youkuaiyun.com/sjdgehi/article/details/145899480

Elasticsearch索引与数据建模优化：根据业务需求提升查询性能

Elasticsearch（ES）作为一个高效的全文搜索和分析引擎，广泛应用于大数据处理、日志分析、电商搜索等场景。为了充分发挥ES的性能，数据建模和索引优化至关重要。在本文中，我们将深入探讨如何根据具体的业务需求进行数据建模，精确设计字段映射、分析器与分词器，合理选择数据类型，创建合适的索引策略，以提升查询性能。

一、业务需求驱动的数据建模

在开始设计ES索引和数据建模时，我们首先需要清楚地了解具体的业务需求。不同的应用场景对数据建模的需求有所不同。例如，电商搜索系统中的商品搜索需求与日志分析需求有很大区别，前者更注重文本搜索和分类，后者更多的是日志字段的筛选和聚合。

1.1 业务需求分析

假设我们需要构建一个电商平台的商品搜索功能。用户可能根据多个维度（商品名称、分类、价格、评分等）进行查询，并且支持模糊搜索和过滤。基于此，我们需要设计一个高效的ES索引，支持快速检索、过滤和排序。

1.2 数据建模与字段映射

数据建模就是将业务需求转化为数据库中的表结构或索引映射。在ES中，我们需要为每个字段选择合适的数据类型和索引方式。以下是电商商品模型的一个示例：

PUT /products
{
  "mappings": {
    "properties": {
      "product_id": {
        "type": "keyword"
      },
      "product_name": {
        "type": "text",
        "analyzer": "ik_max_word"   // 使用IK分词器进行中文分词
      },
      "category": {
        "type": "keyword"
      },
      "price": {
        "type": "scaled_float",     // 精确存储价格
        "scaling_factor": 100
      },
      "rating": {
        "type": "float"
      },
      "created_at": {
        "type": "date"
      }
    }
  }
}

在这个索引映射中：

product_id 使用 keyword 类型，适合用于精确匹配和排序。
product_name 使用 text 类型，启用了 IK 分词器，用于进行模糊查询和全文搜索。
category 采用 keyword 类型，适合于过滤和聚合操作。
price 使用 scaled_float 类型，以高精度存储价格信息。
rating 和 created_at 使用常规的 float 和 date 类型，分别存储商品评分和创建时间。

1.3 选择合适的字段映射

字段类型的选择会直接影响数据存储、查询性能和聚合效率。对于不同的业务需求，我们需要根据查询类型来设计字段的映射。

字段	类型	选择理由
`product_id`	keyword	用于精确匹配和排序，`keyword`类型是理想选择。
`product_name`	text	商品名称需要进行全文搜索，使用分词器处理。
`category`	keyword	类别字段用于精确过滤，`keyword`类型支持快速查找。
`price`	scaled_float	价格字段需要高精度且用于排序，`scaled_float`适合。
`rating`	float	商品评分使用浮动数值，适合 `float` 类型。
`created_at`	date	时间戳用于排序，`date` 类型符合需求。

1.4 分词器与分析器的选择

分词器和分析器的选择对全文检索的性能至关重要。我们需要根据数据的特点选择合适的分词器。

中文分词器：由于中文没有空格，常用的分词器有IK分词器、jieba等。
英文分词器：英文可以通过空格分词，通常使用标准分词器。

对于商品名称字段，我们使用 ik_max_word 分词器来对中文进行细粒度分词，增强查询的准确度。

"analyzer": {
  "ik_max_word": {
    "type": "ik_max_word"
  }
}

二、数据类型选择与查询性能优化

选择合适的数据类型不仅能够提高存储效率，还能加速查询和聚合操作。不同的数据类型对查询的优化效果不同。

2.1 数据类型优化策略

2.1.1 `keyword` vs `text`

keyword 用于精确匹配，适合用于 ID、标签、分类等不需要分词的字段。
text 用于全文搜索，适合长文本、商品描述、评论等需要分词的字段。

2.1.2 `scaled_float` 用于精确存储数值

如果数据字段需要高精度存储（如价格、评分等），使用 scaled_float 类型可以确保更高效的存储和计算。例如，在电商商品的价格字段中，我们使用 scaled_float 来保存价格，以避免浮动数值类型带来的存储和计算误差。

"price": {
  "type": "scaled_float",
  "scaling_factor": 100
}

2.1.3 `date` 类型优化

时间字段可以使用 date 类型，并通过精确的格式来优化存储和查询。对于时间查询，ES会自动优化排序和范围查询。

"created_at": {
  "type": "date",
  "format": "yyyy-MM-dd HH:mm:ss"
}

三、索引策略优化：创建高效的查询索引

3.1 创建单字段索引

单字段索引适合用于那些经常参与精确匹配、过滤或者排序的字段。例如，商品的类别字段通常会用作过滤条件，我们可以为 category 字段创建单字段索引：

{
  "mappings": {
    "properties": {
      "category": {
        "type": "keyword"
      }
    }
  }
}

3.2 创建复合索引

如果字段经常一起出现作为查询条件，可以创建复合索引。例如，商品的 category 和 price 经常一起用于过滤查询，这时可以创建一个复合索引来提高查询性能：

PUT /products/_mapping
{
  "properties": {
    "category_price": {
      "type": "keyword"
    }
  }
}

3.3 使用倒排索引

ES的倒排索引使得查询可以迅速找到匹配项。因此，为了提升查询效率，我们需要确保将常用的查询字段（如文本字段、标签、ID等）索引到倒排索引中。

示例：商品名称字段的倒排索引

{
  "mappings": {
    "properties": {
      "product_name": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

3.4 控制索引的大小

ES中的索引随着数据的增长而变得庞大。为了保证查询性能，需要定期对索引进行优化，或者通过index.lifecycle策略来控制索引的大小。例如，对于日志数据，可以采用时间分片索引策略来拆分索引，避免一个大索引影响查询性能。

四、查询性能提升策略

4.1 避免低选择性字段的索引

对于那些具有较低选择性的字段（如性别字段，通常只有两个值），使用索引可能会影响性能。在这种情况下，可以考虑不为这些字段创建索引，或者使用keyword类型避免分词。

4.2 使用`_source`字段来减少存储空间

ES中的_source字段存储了文档的原始数据，如果查询时不需要原始数据，可以禁用_source字段，从而减少存储空间的占用：

"_source": {
  "enabled": false
}

4.3 调整刷新间隔

刷新间隔（refresh_interval）控制索引的刷新频率。对于频繁更新的数据，适当增加刷新间隔可以减少I/O压力，提高性能。

"settings": {
  "refresh_interval": "30s"
}

五、总结

Elasticsearch的索引与数据建模优化需要根据具体的业务需求进行调整。通过选择合适的数据类型、字段映射和分词器，我们可以提高查询性能和存储效率。同时，通过合理的索引策略、复合索引和倒排索引，我们能够大幅提升查询速度。通过这些优化方法，企业可以更好地应对大数据环境中的搜索与分析需求，提供高效的用户体验。

掌握数据建模和索引优化的技巧，对于提升ES查询性能至关重要。希望本文的讨论能够帮助你在实际应用中更好地构建和优化Elasticsearch索引。