ES 常用元素专业术语详解

最新推荐文章于 2024-04-15 17:14:27 发布

原创最新推荐文章于 2024-04-15 17:14:27 发布 · 1.8k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch

本文详细介绍了Elasticsearch的核心概念，包括索引、文档、类型的含义及其在倒排索引中的作用，阐述了Elasticsearch如何基于Lucene实现高效的数据存储和检索。

索引的基本概念:

1、索引（名词）：一个索引类似关系型数据库中的一个数据库
2、索引（动词）：索引一个文档就是存储一个文档到一个索引（名词）中以便它可以被检索和查询到。这非常类似于 SQL 语句中的 INSERT 关键词，除了文档已存在时新文档会替换旧文档情况之外。
基于倒排索引原则，会给文档建立单独的内存索引，倒排索引主要处理属性字段的分词
3、倒排索引：关系型数据库通过增加一个索引比如一个 B树（B-tree）索引到指定的列上，以便提升数据检索速度。Elasticsearch 和 Lucene 使用了一个叫做倒排索引的结构来达到相同的目的。

索引命名规范:索引名字必须小写，不能以下划线开头,不能包含逗号。

索引必须包含的三大元素:

_index

文档在哪存放,一个索引应该是因共同的特性被分组到一起的文档集合。例如，你可能存储所有的产品在索引 products 中，而存储所有销售的交易到索引 sales 中。

实际上，在 Elasticsearch 中，我们的数据是被存储和索引在分片中，而一个索引仅仅是逻辑上的命名空间，这个命名空间由一个或者多个分片组合在一起。然而，这是一个内部细节，我们的应用程序根本不应该关心分片，对于应用程序而言，只需知道文档位于一个索引内。 Elasticsearch 会处理所有的细节。

_type

文档表示的对象类别，

数据可能在索引中只是松散的组合在一起，但是通常明确定义一些数据中的子分区是很有用的。例如，所有的产品都放在一个索引中，但是你有许多不同的产品类别，比如 "electronics" 、 "kitchen" 和 "lawn-care"。

这些文档共享一种相同的（或非常相似）的模式：他们有一个标题、描述、产品代码和价格。他们只是正好属于“产品”下的一些子类。

Elasticsearch 公开了一个称为 types （类型）的特性，它允许您在索引中对数据进行逻辑分区。不同 types 的文档可能有不同的字段，但最好能够非常相似。我们将在类型和映射中更多的讨论关于 types 的一些应用和限制。

一个 _type 命名可以是大写或者小写，但是不能以下划线或者句号开头，不应该包含逗号，并且长度限制为256个字符. 我们使用 blog 作为类型名举例。

_id

文档唯一标识，ID 是一个字符串，当它和 _index 以及 _type 组合就可以唯一确定 Elasticsearch 中的一个文档。当你创建一个新的文档，可以自定义 _id ，也可以让 Elasticsearch 自动生成，如果不提供_id默认是ES自动生成。

Lucene（鲁C恩）：Elasticsearch是一个基于Apache Lucene(TM)的分布式可扩展的实时搜索和分析引擎.
Elasticsearch 在 Lucene 的基础上进行封装，实现了分布式搜索引擎。
Lucene就是个文档库

集群：
node：节点，每台计算机是一个节点
shard：主分片，用来存放数据，多分片会对数据进行切割，id 1、3、4 在分片1上，2、3在分片2上。
replica：副本分片，用来对主分片进行数据copy，实现提高查询效率。
Index：在ES 中索引有三层含义
document：文档

总结:

ES是面向文档的数据库
实时分析的分布式搜索引擎，效率极高
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据
反向索引又叫倒排索引，是根据文章内容中的关键字建立索引。
搜索引擎原理就是建立反向索引。
Elasticsearch 也是 Master-slave 架构，也实现了数据的分片和备份。