参考资料:
https://www.nowcoder.com/discuss/150059?type=0&order=0&pos=8&page=0
https://www.cnblogs.com/Luv-GEM/p/10555843.html
mysql数据库优化
,从MySQL 5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。
在使用中文检索分词插件ngram之前,先得在MySQL配置文件里面设置他的分词大小,比如,
[mysqld]
ngram_token_size=2
这里把分词大小设置为2。要记住,分词的SIZE越大,索引的体积就越大,所以要根据自身情况来设置合适的大小
bosonnlp--es使用的分词
http://ishare.iask.sina.com.cn/f/1H35omRVOzPc.html
mysql中文分词和全文index
http://ishare.iask.sina.com.cn/f/1H4vHreguZ4K.html
Lucene中文分词
https://blog.51cto.com/12173069/2285608
+逻辑全文搜索支持下面的操作符:
一个领头的加号表示,该词必须出现在每个返回的记录行中。
-一个领头的减号表示,该词必须不出现在每个返回的记录行中。
缺省的(当既没有加号也没有负号被指定时)词是随意的,但是包含它的记录行将被
排列地更高一点。
<> ()
这个模仿没有IN BOOLEAN MODE修饰词的MATCH( . AGAINST()的行为 >
这两个操作符用于改变一个词的相似性值的基值。<操作符减少基值, >操作符则增加它。参看下面的示例。圆括号用于对子表达式中的词分组。
~个领头的否定号的作用象一个否定操作符,引起行相似性的词的基值为负的。它对标记一个噪声词很有用。一个包含这样的词的记录将被排列得低一点,但是不会被完全的排除,因为这样可以使用-操作符。
*一个星号是截断操作符。不想其它的操作符,它应该被追加到一个词后,不加在前面。
“短语,被包围在双引号"中,只匹配包含这个短语(字面上的,就好像被键入的)的记录行。
IN BOOLEAN MODE修饰语这里是一些示例:
apple banana找至少包含上面词中的一个的记录行
+apple +juice…两个词均在被包含
+apple macintosh..包含词"apple",但是如果同时包含"macintosh",它的排列将更高一些
+apple-macintosh..包含"apple"但不包含"macintosh"
+apple +(>pie<strudel) .包含"apple"和"pie",或者包含的是"apple"和"strudel"(以任何次序),
但是"apple pie"排列得比"apple strudel"要高一点apple..
包含"apple", "apples", "applesauce"和"applet"'some words"…
可以包含"some words of wisdom",但不是"some noise words"
2021

被折叠的 条评论
为什么被折叠?



