difflib:基于Ratcliff-Obershelp算法(格式塔模式匹配)
fuzzywuzzy:基于莱文斯坦距离(需要安装python-Levenshtein)
https://blog.youkuaiyun.com/lly1122334/article/details/107024341
文本向量化,余弦相似度
https://zhuanlan.zhihu.com/p/351780276
1. 余弦相似度
2. 欧氏距离
3. 曼哈顿距离
4. 切比雪夫距离
5. 杰尔德距离
6. 汉明距离
7. 标准化欧式距离
8. 皮尔逊相关系数
https://blog.youkuaiyun.com/u013421629/article/details/85050282
模糊匹配与文本相似度算法应用
这篇博客探讨了Python中difflib模块的Ratcliff-Obershelp算法和fuzzywuzzy库的Levenshtein距离在文本模糊匹配中的使用。同时,介绍了文本向量化及余弦相似度在衡量文本相似度中的作用,列举了多种距离度量方法,如欧氏距离、曼哈顿距离等。文章适合对文本处理和相似度计算感兴趣的读者。
1万+

被折叠的 条评论
为什么被折叠?



