
算法
文章平均质量分 73
卡了个卡
这个作者很懒,什么都没留下…
展开
-
可能是全网最清晰的KMP算法讲解
KMP算法由D.E.Knuth,J.H.Morris和V.R.Pratt三位大神在1977年提出,它的核心算法是利用匹配失败后的信息,减少模式串与主串的匹配次数,以达到快速匹配的目的。原创 2022-08-21 14:52:08 · 3666 阅读 · 12 评论 -
Trie字典树及内存占用优化
Trie又叫字典树、前缀树,是一种数据结构。它将大量不同字符串以共享前缀的方式保存起来,形成一种树形的数据结构,由于共享字符前缀,按前缀逐级查找字符,所以检索效率极高。字典树本质上是DFA算法的一种实现。它的典型应用是文本词频统计、敏感词过滤。......原创 2022-08-04 18:02:55 · 1672 阅读 · 0 评论 -
杰卡德系数(Jaccard Index)
杰卡德系数(Jaccard Index)杰卡德系数,又称为杰卡德相似系数,用于比较两个样本之间的差异性和相似性。杰卡德系数越高,则两个样本相似度越高。定义有两个集合A和B,那么这两个集合的杰卡德系数为A和B的交集除以A和B的并集。原创 2022-01-22 17:45:14 · 20512 阅读 · 0 评论 -
汉明距离(Hamming Distance)
汉明距离(Hamming Distance)定义汉明距离以美国数学家理查德·卫斯里·汉明的名字命名,表示两个相同长度的字符串在相同位置上不同字符的个数。用d(x,y)来表示x和y两个字符串的汉明距离。汉明距离可以用来计算两个文本之间的相似度,根据不同字符的个数来判断两个文本是否相似。d(10010,10000)=2d(abcbc,abdab)=3计算根据定义,我们需要统计出相同位置上不同字符的个数,如何判断两个字符是否相同呢?如果两个字符都是数字,可以用a==b来判断,如果两个字符是非数字,可原创 2022-01-18 11:34:40 · 19168 阅读 · 2 评论