ElasticSearch学习笔记（一）—ElasticSearch介绍

最新推荐文章于 2025-07-19 11:52:18 发布

原创最新推荐文章于 2025-07-19 11:52:18 发布 · 375 阅读

CC 4.0 BY-SA版权

文章标签：

9 篇文章

订阅专栏

Elasticsearch是一款实时分布式搜索和分析引擎，适用于全文搜索、结构化搜索及数据分析。基于Apache Lucene，它能处理PB级数据，支持RESTful API及多种语言客户端。广泛应用于日志分析、全文检索、实时搜索等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Elasticsearch是一个实时分布式搜索和分析引擎，它用于全文搜索、结构化搜索、分析

Elasticsearch基于Apache Lucene™

Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库

应用简单的 RESTful API 、各种语言的客户端甚至命令行与之交互

（1）分布式的搜索引擎和数据分析引擎
搜索：百度，网站的站内搜索，IT系统的检索
数据分析：电商网站，最近7天牙膏这种商品销量排名前10的商家有哪些；新闻网站，最近1个月访问量排名前3的新闻版块是哪些
分布式，搜索，数据分析

（2）全文检索，结构化检索，数据分析

全文检索：我想搜索商品名称包含牙膏的商品，select * from products where product_name like “%牙膏%”

结构化检索：我想搜索商品分类为日化用品的商品都有哪些，select * from products where category_id=‘日化用品’

部分匹配、自动完成、搜索纠错、搜索推荐

数据分析：我们分析每一个商品分类下有多少个商品，select category_id,count(*) from products group by category_id

（3）对海量数据进行近实时的处理

分布式：ES自动可以将海量数据分散到多台服务器上去存储和检索
海联数据的处理：分布式以后，就可以采用大量的服务器去存储和检索数据，自然而然就可以实现海量数据的处理了
近实时：检索个数据要花费1小时（这就不要近实时，离线批处理，batch-processing）；在秒级别对数据进行搜索和分析

跟分布式/海量数据相反的：lucene，单机应用，只能在单台服务器上使用，最多只能处理单台服务器可以处理的数据量

维基百科使用Elasticsearch提供全文搜索并高亮关键字，以及输入实时搜索(search-as-you-type)和搜索纠错(did-youmean)等搜索建议功能
英国卫报使用Elasticsearch结合用户日志和社交网络数据提供给他们的编辑以实时的反馈，以便及时了解公众对新发表
的文章的回应
StackOverflow结合全文搜索与地理位置查询，以及more-like-this功能来找到相关的问题和答案
Github使用Elasticsearch检索1300亿行的代码
日志数据分析，logstash采集日志，ES进行复杂的数据分析（ELK技术，elasticsearch+logstash+kibana）
BI系统，商业智能，Business Intelligence。比如说有个大型商场集团，BI，分析一下某某区域最近3年的用户消费金额的趋势以及用户群体的组成构成，产出相关的数张报表，**区，最近3年，每年消费金额呈现100%的增长，而且用户群体85%是高级白领，开一个新商场。ES执行数据分析和挖掘，Kibana进行数据可视化