基于 Mysql 实现一个简易版搜索引擎

最新推荐文章于 2024-06-12 11:19:59 发布

原创

最新推荐文章于 2024-06-12 11:19:59 发布 · 396 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mysql #搜索引擎

本文介绍了如何在MySQL 8.0中利用ngram全文解析器创建和使用全文索引，对比了自然语言模式和布尔模式的检索，并讨论了与LIKE查询的优缺点。适用于数据量不大，但需要搜索功能的场景。

前言

前段时间，因为项目需求，需要根据关键词搜索聊天记录，这不就是一个搜索引擎的功能吗？
于是我第一时间想到的就是 ElasticSearch 分布式搜索引擎，但是由于一些原因，公司的服务器资源比较紧张，没有额外的机器去部署一套 ElasticSearch 服务，而且上线时间也比较紧张，数据量也不大，然后就想到了 Mysql 的全文索引。

简介

其实 Mysql 很早就支持全文索引了，只不过一直只支持英文的检索，从5.7.6 版本开始，Mysql 就内置了 ngram 全文解析器，用来支持中文、日文、韩文分词。

Mysql 全文索引采用的是倒排索引的原理，在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

本文测试，基于 Mysql 8.0 版本，数据库引擎采用的是 InnoDB

ngram 全文解析器

ngram 就是一段文字里面连续的 n 个字的序列。ngram 全文解析器能够对文本进行分词，每个单词是连续的 n 个字的序列。例如，用 ngram 全文解析器对“你好靓仔”进行分词:

n=1: '你', '好', '靓', '仔' 
n=2: '你好', '好靓', '靓仔' 
n=3: '你好靓', '好靓仔' 
n=4: '你好靓仔'

MySQL 中使用全局变量 ngram_token_size 来配置 ngram 中 n 的大小，它的取值范围是1到10，默认值是 2。通常 ngram_token_size 设置为要查询的单词的最小字数。如果需要搜索单字，就要把 ngram_token_size 设置为 1。在默认值是 2 的情况下，搜索单字是得不到任何结果的。因为中文单词最少是两个汉字，推荐使用默认值 2。

可以通过以下命令查看 Mysql 默认的 ngram_token_size 大小：