nltk中的metrics模块中提供了各种评估或相似性度量的方法:
1.通过计算编辑距离执行相似性度量
# 编辑距离:为了使两个字符串形同 所需插入、替换或删除的字符数量
如:"text"到"test"的编辑距离为1,"good"到"looking"的编剧距离为5
from nltk.metrics import edit_distance print edit_distance("good", "looking")
2.Jaccard系数执行相似性度量
# 计算两个集合的相速度:(两个集合的并集长度-两个集合的交集长度)/两个集合 的并集长度
from nltk.metrics import jaccard_distance a = set([1, 2, 3, 4]) b = set([1, 2, 5, 6]) # 参数必须是两个集合(6-2)/6 print(jaccard_distance(b, a)) # 0.666666666667