一、字符串匹配算法研究
1.1 Difflib 算法
difflib 算法原理:
通过字符串长度与匹配字符串的个数做比较
import difflib
Str = '上海中心大厦'
s1 = '大厦'
s2 = '上海中心'
s3 = '上海中心大楼'
#None 是isjunk的意思
print(difflib.SequenceMatcher(None, Str, s1).quick_ratio())
print(difflib.SequenceMatcher(None, Str, s2).quick_ratio())
print(difflib.SequenceMatcher(None, Str, s3).quick_ratio())
1.2 Transoform
可以使用Transform 相关的库,使用别人预训练的模型。
二、参考资料
https://blog.youkuaiyun.com/Disany/article/details/82768328
https://blog.youkuaiyun.com/minosisterry/article/details/117028761
https://baijiahao.baidu.com/s?id=1682978589161286164&wfr=spider&for=pc(isjunk的解释)
https://blog.youkuaiyun.com/u010454729/article/details/124231419(difflib 计算原理)
文章介绍了Python的difflib模块在字符串匹配中的应用,通过SequenceMatcher的quick_ratio方法比较字符串相似度。此外,还提到了使用预训练模型进行字符串处理的Transform库。文章提供了相关资源链接以深入理解difflib算法的计算原理和isjunk参数的含义。
3553

被折叠的 条评论
为什么被折叠?



