ElasticSearch基本介绍和Windows环境安装

最新推荐文章于 2025-10-11 22:06:56 发布

原创最新推荐文章于 2025-10-11 22:06:56 发布 · 666 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #java

本文探讨了Elasticsearch作为Java开发的高效搜索引擎，如何解决Lucene的复杂性和局限，列举了京东等公司使用案例，并深入解析了全文检索、倒排索引和核心概念，如索引、映射、分片与副本，以及与关系型数据库的对比。还介绍了ES的安装、配置和基本操作，包括数据管理和分词技术。

ElasticSearch（简称ES）

Elasticsearch是用Java开发并且是当前最流行的开源的企业级搜索引擎。
能够达到实时搜索，稳定，可靠，快速，安装使用方便。
客户端支持Java、.NET（C#）、PHP、Python、Ruby等多种语言。

1.2 ElasticSearch与Lucene的关系
Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库（框架）
但是想要使用Lucene，必须使用Java来作为开发语言并将其直接集成到你的应用中，并且Lucene的配置及使用非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

Lucene缺点：
1）只能在Java项目中使用,并且要以jar包的方式直接集成项目中.
2）使用非常复杂-创建索引和搜索索引代码繁杂
3）不支持集群环境-索引数据不同步（不支持大型项目）
4）索引数据如果太多就不行，索引库和应用所在同一个服务器,共同占用硬盘.共用空间少.

上述Lucene框架中的缺点,ES全部都能解决.

1.3 哪些公司在使用Elasticsearch

京东
携程
去哪儿
58同城
滴滴
今日头条
小米
哔哩哔哩
联想
GitHup
微软
Facebook
等等…

ES vs 关系型数据库
在这里插入图片描述

2 Lucene全文检索框架
2.1 什么是全文检索
全文检索是指：
通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置、以及出现的次数
用户查询时，通过之前建立好的索引来查询，将索引中单词对应的文本位置、出现的次数返回给用户，因为有了具体文本的位置，所以就可以将具体内容读取出来了

hello what world ====> hello
what
world

2.2 分词原理之倒排索引
在这里插入图片描述

倒排索引总结：
索引就类似于目录，平时我们使用的都是索引，最后都是通过主键定位到某条数据，而倒排索引呢，刚好相反，通过数据对应到主键

倒排索引
假如，我们有一个站内搜索的功能，通过某个关键词来搜索相关的文章，那么这个关键词可能出现在标题中，也可能出现在文章内容中，那我们将会在创建或修改文章的时候，建立一个关键词与文章的对应关系表，这种，我们可以称之为倒排索引,因此倒排索引，也可称之为反向索引．如：
在这里插入图片描述

3. Elasticsearch中的核心概念

3.1 索引 index
一个索引就是一个拥有几分相似特征的文档的集合。比如说，可以有一个客户数据的索引，另一个产品目录的索引，还有一个订单数据的索引一个索引由一个名字来标识（必须全部是小写字母的），并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候，都要使用到这个名字
3.2 映射 mapping
ElasticSearch中的映射（Mapping）用来定义一个文档
mapping是处理数据的方式和规则方面做一些限制，如某个字段的数据类型、默认值、分词器、是否被索引等等，这些都是映射里面可以设置的
3.3 字段Field
相当于是数据表的字段|列
3.4 字段类型 Type
每一个字段都应该有一个对应的类型，例如：Text、Keyword、Byte等
3.5 文档 document
一个文档是一个可被索引的基础信息单元，类似一条记录。文档以JSON（Javascript Object Notation）格式来表示
3.6 集群 cluster
一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能
3.7 节点 node
一个节点是集群中的一个服务器，作为集群的一部分，它存储数据，参与集群的索引和搜索功能
一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做“elasticsearch”的集群中
这意味着，如果在网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中在一个集群里，可以拥有任意多个节点。而且，如果当前网络中没有运行任何Elasticsearch节点，这时启动一个节点，会默认创建并加入一个叫做“elasticsearch”的集群。
3.8 分片和副本 shards&replicas
3.8.1 分片
一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间；或者单个节点处理搜索请求，响应太慢
为了解决这个问题，Elasticsearch提供了将索引划分成多份的能力，这些份就叫做分片
当创建一个索引的时候，可以指定你想要的分片的数量
每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上
分片很重要，主要有两方面的原因
允许水平分割/扩展你的内容容量
允许在分片之上进行分布式的、并行的操作，进而提高性能/吞吐量
至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户来说，这些都是透明的
3.8.2 副本
在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做副本分片，或者直接叫副本
副本之所以重要，有两个主要原因
1) 在分片/节点失败的情况下，提供了高可用性。
注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的
2) 扩展搜索量/吞吐量，因为搜索可以在所有的副本上并行运行
每个索引可以被分成多个分片。一个索引有0个或者多个副本
一旦设置了副本，每个索引就有了主分片和副本分片，分片和副本的数量可以在索引
创建的时候指定
在索引创建之后，可以在任何时候动态地改变副本的数量，但是不能改变分片的数量

Windows安装

Elasticsearch下载
Elasticsearch官网：https://www.elastic.co/cn/products/elasticsearch
解压后的ElasticSearch 的目录结构如下
在这里插入图片描述
修改elasticsearch配置文件：conﬁg/elasticsearch.yml，增加以下两句命令，此步为允许elasticsearch跨越访问。

http:
  cors:
    enabled : true
    allow-origin : "*"

在这里插入图片描述

在这里插入图片描述
注意：9300是tcp通讯端口，集群间和TCPClient都执行该端口，9200是http协议的RESTful接口。通过浏览器访问ElasticSearch服务器，看到如下返回的json信息，代表服务启动成功

下载nodejs：https://nodejs.org/en/download/
nodejs安装步骤：https://blog.youkuaiyun.com/weixin_44893902/article/details/121788104

中文分词器的集成
将解压之后的目录拷贝至elasticsearch安装包的plugin目录下面,并重命名为ik-analyzer，然后重启动ElasticSearch，即可加载IK分词器。

kibana下载：
https://www.elastic.co/cn/kibana/
直接解压启动注意版本要同es版本一致
在这里插入图片描述

测试分词效果
在这里插入图片描述

指定IK分词器作为默认分词器
ES的默认分词设置是standard，这个在中文分词时就比较尴尬了，会单字拆分，比如我搜索关键词“清华大学”，这时候会按“清”，“华”，“大”，“学”去分词，然后搜出来的都是些“清清的河水”，“中华儿女”，“地大物博”，“学而不思则罔”之类的莫名其妙的结果，这里我们就想把这个分词方式修改一下，于是呢，就想到了ik分词器，有两种ik_smart和ik_max_word。
ik_smart会将“清华大学”整个分为一个词，而ik_max_word会将“清华大学”分为“清华大学”，“清华”和“大学”，按需选其中之一就可以了。
修改默认分词方法(这里修改school_index索引的默认分词为：ik_max_word)：

PUT /school_index
{
"settings" : {
"index" : {
"analysis.analyzer.default.type": "ik_max_word"
}
}
}

ES数据管理概述
ES是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。
然而它不仅仅是存储，还会索引(index)每个文档的内容使之可以被搜索。
在ES中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。
ES使用JSON作为文档序列化格式。
JSON现在已经被大多语言所支持，而且已经成为NoSQL领域的标准格式。
ES存储的一个员工文档的格式示例：

{
"email": "584614151@qq.com",
"name": "张三",
 "age": 30,
 "interests": [ "篮球", "健身" ]

}

基本操作

创建索引
格式: PUT /索引名称
举例: PUT /es_db
查询索引
格式: GET /索引名称
举例: GET /es_db
删除索引
格式: DELETE /索引名称
举例: DELETE /es_db
添加文档
格式: PUT /索引名称/类型/id

举例: 
PUT /es_db/_doc/1
{
"name": "张三",
"sex": 1,
"age": 25,
"address": "广州天河公园",
"remark": "java developer"
}

PUT /es_db/_doc/2
{
"name": "李四",
"sex": 1,
"age": 28,
"address": "广州荔湾大厦",
"remark": "java assistant"
}

PUT /es_db/_doc/3
{
"name": "rod",
"sex": 0,
"age": 26,
"address": "广州白云山公园",
"remark": "php developer"
}

PUT /es_db/_doc/4
{
"name": "admin",
"sex": 0,
"age": 22,
"address": "长沙橘子洲头",
"remark": "python assistant"
}

PUT /es_db/_doc/5
{
"name": "小明",
"sex": 0,
"age": 19,
"address": "长沙岳麓山",
"remark": "java architect assistant"
}

注意:POST和PUT都能起到创建/更新的作用
1、需要注意的是PUT需要对一个具体的资源进行操作也就是要确定id才能进行更新/创建，而POST是可以针对整个资源集合进行操作的，如果不写id就由ES生成一个唯一id进行创建==新文档，如果填了id那就针对这个id的文档进行创建/更新
2、PUT只会将json数据都进行替换, POST只会更新相同字段的值
3、PUT与DELETE都是幂等性操作, 即不论操作多少次, 结果都一样

查询文档
格式: GET /索引名称/类型/id
举例: GET /es_db/_doc/1

删除文档
格式: DELETE /索引名称/类型/id
举例: DELETE /es_db/_doc/1

查询操作
查询当前类型中的所有文档 _search
格式: GET /索引名称/类型/_search
举例: GET /es_db/_doc/_search
SQL: select * from student

条件查询, 如要查询age等于28岁的 _search?q=:**
格式: GET /索引名称/类型/_search?q=:**
举例: GET /es_db/_doc/_search?q=age:28
SQL: select * from student where age = 28

范围查询, 如要查询age在25至26岁之间的 _search?q=[ TO ] 注意: TO 必须为大写
格式: GET /索引名称/类型/_search?q=[25 TO 26]
举例: GET /es_db/_doc/_search?q=age[25 TO 26]
SQL: select * from student where age between 25 and 26

根据多个ID进行批量查询 _mget
格式: GET /索引名称/类型/_mget
举例: GET /es_db/_doc/_mget
{
“ids”:[“1”,“2”]
}
SQL: select * from student where id in (1,2)

查询年龄小于等于28岁的 :<=
格式: GET /索引名称/类型/_search?q=age:<=**
举例: GET /es_db/_doc/_search?q=age:<=28
SQL: select * from student where age <= 28

查询年龄大于28前的 :>
格式: GET /索引名称/类型/_search?q=age:>**
举例: GET /es_db/_doc/_search?q=age:>28
SQL: select * from student where age > 28

分页查询 from=&size=
格式: GET /索引名称/类型/_search?q=age[25 TO 26]&from=0&size=1
举例: GET /es_db/_doc/_search?q=age[25 TO 26]&from=0&size=1
SQL: select * from student where age between 25 and 26 limit 0, 1

对查询结果只输出某些字段 _source=字段,字段
格式: GET /索引名称/类型/_search?_source=字段,字段
举例: GET /es_db/_doc/_search?_source=name,age
SQL: select name,age from student

对查询结果排序 sort=字段:desc/asc
格式: GET /索引名称/类型/_search?sort=字段 desc
举例: GET /es_db/_doc/_search?sort=age:desc
SQL: select * from student order by age desc