浅谈「分词」：原理 + 方案对比 + 最佳实践

silence250

于 2025-04-07 09:52:55 发布

阅读量1.1k

点赞数 23

分类专栏：其他文章标签：数据搜索

本文链接：https://blog.youkuaiyun.com/qq_36291550/article/details/147036434

版权

6 篇文章

订阅专栏

在文本搜索、自然语言处理、智能推荐等场景中，「分词」是一个基础但至关重要的技术点。无论是用数据库做模糊查询，还是构建搜索引擎，分词都是提高效率和准确度的核心手段。

分词（Tokenization） 是指将一段连续的文本切分为有意义的「词语」或「短语」的过程。
它是 NLP（自然语言处理）和全文搜索的第一步。

原始文本：

“我爱自然语言处理”

分词结果（中文）：

我 / 爱 / 自然语言 / 处理

英文文本通常以空格分词，而中文、日文、韩文等语言需要使用特定算法来切割词边界。

在以下场景中都需要高质量的分词：

方案	适用语言	是否支持中文	特点	使用场景
✅ MySQL FULLTEXT	英文	❌ 不支持中文	内置分词器基于空格、标点	英文搜索
✅ MySQL FULLTEXT + ngram	所有语言	✅ 支持中文	固定长度 n-gram 切词，能识别 `N3-2016`	中文、混合语言搜索
✅ Elasticsearch + ik_smart / ik_max_word	所有语言	✅ 强大中文支持	支持最细粒度 & 智能分词	搜索引擎
✅ Lucene / Solr	所有语言	✅ 强大中文支持	高级分词、多语言支持	企业级搜索系统
✅ Jieba 分词（Python）	中文	✅	精度高，支持自定义词典	NLP 开发、爬虫分析
✅ HanLP、THULAC、NLPIR	中文	✅	学术/工业级分词工具	AI/NLP

SELECT * FROM articles WHERE title LIKE '%分词%';

✅ 简单
❌ 性能差、不支持分词、不适合大数据量

ALTER TABLE articles ADD FULLTEXT(title);
SELECT * FROM articles WHERE MATCH(title) AGAINST('token' IN BOOLEAN MODE);

✅ 支持全文索引，适合英文
❌ 不支持中文、符号（如 “N3-2016”）

ALTER TABLE articles ADD FULLTEXT(title) WITH PARSER ngram;

✅ 支持中文、符号和短词搜索
✅ 轻量级，适合小中型系统
⚠️ 需 MySQL 5.7.6+（推荐 8.0+）