十 ElasticSearch（分布式搜索引擎）

最新推荐文章于 2024-08-26 11:09:59 发布

香草星冰乐

最新推荐文章于 2024-08-26 11:09:59 发布

阅读量249

点赞数

分类专栏： Java 文章标签：搜索引擎分布式 java

本文链接：https://blog.youkuaiyun.com/Devil_B/article/details/118272789

版权

Java 专栏收录该内容

15 篇文章

订阅专栏

十 ElasticSearch（分布式搜索引擎，记录自己项目中的使用）

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:

分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

核心概念(对比数据库)

ES ->数据库
索引index >表
文档document->行(记录)
字段fields ->列
如下每一个文档都是一条记录, 如此文档中的一个ison对象, 就是数据库表中的一行记录。

stu_index
{
	id: 1001,
	name: jason,
	age: 19
},
{
	id: 1002,
	name: tom,
	age: 18
},
{
	id: 1003,
	name: rose,
	age: 22
}

集群相关介绍
分片(shard) :把索弓l库拆分为多份，分别放在不同的节点上，比如有3个节点，3个节点的所有数据内容加在-起是一个完整的索引库。分别保存到三个节点上，目的为了水平扩展，提高吞吐量。
备份(replica) : 每个shard的备份。

倒排索引：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Ra3hVPz-1624770893204)(C:\Users\陈\Desktop\找工作\复习资料\慕课网\慕课网\60a4dadf08c603fc16000861.jpg)]$

实现方式：

在centos7上配置ElasticSearch（安装java配置conf文件，版本6.8.7需要与idea中spring版本一致），下载中文分词插件，安装谷歌插件
创建search项目，构建文章索引，利用postman手动配置mapping（就是对应的表结构）
在model工程中添加articleEO类文档对象，并在ArticleServiceImpl中添加方法如下所示,同时在删除文章，撤回文章中添加删除代码

// 如果审核通过，则查询article，存入es中
if (pendingStatus == ArticleReviewStatus.SUCCESS.type) {
    Article result = articleMapper.selectByPrimaryKey(articleId);
    // 如果是即时发布的文章，审核通过后则可以直接存入es中
    if(result.getIsAppoint() == ArticleAppointType.IMMEDIATELY.type) {
        ArticleEO articleEO = new ArticleEO();
        articleEO.setId(articleId);
        articleEO.setTitle(result.getTitle());
        articleEO.setCategoryId(result.getCategoryId());
        articleEO.setArticleType(result.getArticleType());
        articleEO.setArticleCover(result.getArticleCover());
        articleEO.setPublishTime(result.getPublishTime());
        IndexQuery iq = new IndexQueryBuilder().withObject(articleEO).build();
        esTemplate.index(iq);
    }
    // FIXME 作业：如果是定时发布的文章，此处不能放入es，需要在定时的延迟队列中执行
}

首页查询方式：首页默认查询所有；按照分类查询；按照关键字查询，对应的脚本：实现代码
粉丝列表以及粉丝的信息同上。

总结

Elasticsearch的思路:将数据库中内容存放至内存，减少磁盘随机读取次数(同时也利用磁盘顺序读特性)，同时利用压缩算法使用内存。
注意：
不需要索引的字段，一定要明确定义出来，因为默认是自动建索引的
同样的道理，对于String类型的字段，不需要analysis的也需要明确定义出来，因为默认也是会analysis的
选择有规律的ID很重要，随机性太大的ID(比如java的UUID)不利于查询