
elasticsearch
文章平均质量分 53
elasticsearch
_starking
动机+能力+提示,改变从今天开始
展开
-
emoji 问题总结
一、不同的emoji插入到mysql表中,出现唯一键冲突 业务场景:手机号注册用户,默认昵称为 宝宝+emoji+手机尾号,用户表中昵称字段要求唯一不可重复,存在唯一键。 (已使用utf8mb4字符集) 问题: 1、插入时 产生唯一键冲突 原因:字符集使用了utf8mb4,但它的默认排序集是utf8mb4_general_ci 。utf8mb4_general_ci 不区分特殊字符,不区分大小写。 概念: 字符:文字与符号的总称,包括文字、图形符号、数学符号等。英...原创 2021-07-04 11:11:31 · 872 阅读 · 0 评论 -
TF与IDF
TF(term frequency) 即词频,指的是一个词在一个文档中出现的频次。显而易见,出现的越多,这个词的权重越高,它越重要。如:帅哥,靓仔这 IDF(inverse document frequency)即逆向文档频率,指的是一个词在所有文档里出现的频次。频次越高,权重越低,这个词体现不出文档之间的区分度,对文档的相关度贡献就低。 如:the,and,的,你,我,他这类词在所有文档中都存在,它对文档的区分度贡献就低。 参考官网: 相关度评分背后的理论 | Elasticsearch:.原创 2021-09-21 12:14:51 · 651 阅读 · 0 评论