MySQL 全文索引失效之谜

最新推荐文章于 2025-05-12 22:10:13 发布

蛋肠不要葱

最新推荐文章于 2025-05-12 22:10:13 发布

阅读量366

点赞数 4

文章标签： mysql 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_37219543/article/details/145613558

版权

MySQL 全文索引失效之谜

现象：

现象：

在 MySQL 中存在一张数据量较大的表，由于需要使用模糊查询，即“%xxx%”模式，所以创建了全文索引。该表字段的值如下：圆生园;￥圆园;圆生;生园;…圆生;圆生…;…生园;生园…。然而，当使用“SELECT * FROM my_table WHERE MATCH(column) AGAINST(‘+生园’ IN BOOLEAN MODE);”进行查询时，却无法得到结果。

原因：

究其根本原因，是分号“;”对 N-gram 分词逻辑产生了干扰，使得“生园”未能被正确识别为独立的词汇。通过将分隔符进行替换，并重新构建索引，便可以确保全文索引能够按照预期正常工作。

解决方案：通过停用词表忽略分号

由于字段值无法修改，可以通过将分号;加入停用词表（Stopwords）来强制全文索引忽略分号，从而避免分号干扰分词结果。以下是具体步骤：

步骤 1：创建自定义停用词表

新建停用词表：
在数据库中创建一个表，用于存储自定义停用词（如分号;）：

CREATE TABLE custom_stopwords (value VARCHAR(30)) ENGINE = INNODB;
INSERT INTO custom_stopwords (value) VALUES (';');
-- 若数据中有其他干扰符号（如￥、…），需一并加入停用词表
INSERT INTO custom_stopwords (value) VALUES ('￥'), ('…');

配置MySQL使用该停用词表：
修改MySQL全局配置，指向自定义停用词表：

SET GLOBAL innodb_ft_server_stopword_table = 'your_database_name/custom_stopwords';

注：需确保用户有权限修改全局变量。

步骤 2：重建全文索引

删除旧索引：

ALTER TABLE my_table DROP INDEX index_name;

创建新索引（忽略分号）：

ALTER TABLE my_table 
ADD FULLTEXT INDEX index_name(column) 
WITH PARSER ngram;

强制更新索引缓存：

OPTIMIZE TABLE tm_info;

步骤 3：查询验证

SELECT * FROM my_table WHERE MATCH(column) AGAINST('+"生园"' IN BOOLEAN MODE);

注：+“生园” 表示必须精确包含“生园”。

关键配置说明

配置项	作用	配置项
custom_stopwords	存储自定义停用词（如分号）	需提前创建并插入数据
innodb_ft_server_stopword_table	指定全局停用词表	需重启或权限生效
ngram_token_size	控制分词长度（默认2）	若需匹配单字，可设为1

蛋肠不要葱

博客等级

码龄8年

24
原创

32
点赞

102
收藏

26
粉丝

关注

私信

热门文章

分类专栏

最新评论

PDI（kettle）兼容hadoop-连接CDH hadoop集群
qq_39357301: 感谢，感谢，用8.3链接成了[捂脸]
PDI（kettle）兼容hadoop-连接CDH hadoop集群
蛋肠不要葱: https://sourceforge.net/projects/pentaho/files/Pentaho-9.3/server/ 9.3版本的在这也有，PDI9跟PDI8加载插件的方式不一样，PDI有shims就能加载，PDI9的话是插件式加载。另外PDI9似乎对Hadoop的版本有要求，对比较旧的版本不支持。具体版本支持参考：https://help.hitachivantara.com/Documentation/Pentaho/9.3/Setup/Components_Reference
PDI（kettle）兼容hadoop-连接CDH hadoop集群
qq_39357301: 我另外弄了个8.2版本的kettle随便用个hdp30（这个文件夹也是下载下来8.2版本就存在的），然后新建了个New Cluster 测试的时候报错：The Hadoop File System URL does not match the URL in the shims core-site.xml （这里应该是shims .kar包不匹配吧）然后去转换里用这个失败的cluster 去做Hadoop file input 读取目录的时候直接报错 You don't seem to be getting a connection to the hadoop Cluster Check the cluster configuration you're using
PDI（kettle）兼容hadoop-连接CDH hadoop集群
qq_39357301: 大佬你下载kar时是怎么选择kar包的。我的虚拟机是伪分布式hadoop3.1.1系统我刚也去9.3 里面下载了对应的这个pentaho-server-ce-9.3.0.0-428zip 里面应该有很多不同的kar包吧
PDI（kettle）兼容hadoop-连接CDH hadoop集群
qq_39357301: 哦哦谢谢！我看看，我的是9.3版本，不是9.2[捂脸]

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。