MySQL全文检索临时代替ES实现快速搜索

原创

已于 2022-08-03 15:25:24 修改 · 1.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#全文检索 #mysql #elasticsearch

于 2022-08-02 16:23:12 首次发布

引入

在MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分词器把中文段落预处理拆分成单词，然后存入数据库。
从MySQL 5.7.6开始，MySQL内置了ngram全文解析器，用来支持中文、日文、韩文分词。

全文索引只支持InnoDB和MyISAM引擎，支持的类型为CHAR、VARCHAR或者TEXT的字段上创建全文索引。

了解：什么是n-gram模型

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

MySQL分词配置

ngram就是一段文字里面连续的n个字的序列。ngram全文解析器能够对文本进行分词，每个单词是连续的n个字的序列。例如，用ngram全文解析器对“我是中国人”进行分词:

n=1: '我', '是', '中', '国','人' 
n=2: '我是', '中国', '人' 
n=3: '我是', '中国人' 
n=4: '我是中国人'

MySQL 中使用全局变量ngram_token_size来配置ngram中n的大小，它的取值范围是1到10，默认值是2。通常ngram_token_size设置为要查询的单词的最小字数。如果需要搜索单字，就要把ngram_token_size设置为1。在默认值是2的情况下，搜索单字是得不到任何结果的。因为中文单词最少是两个汉字，推荐使用默认值2。

全局变量ngram_token_size的两种设置方法：

启动mysqld命令时

mysqld --ngram_token_size=2

修改MySQL配置文件

[mysqld]

ngram_token_size=2

创建全文检索并分词

创建表的同时创建全文索引

CREATE TABLE `essay` (
  `essay_id` varchar(20) NOT NULL,

最低0.47元/天解锁文章