文本相似度计算的方法很多,主要来说有两种,一是余弦定律,二是JaccardSimilarity方法,JaccardSimilarity说起来非常简单,容易实现,实际上就是两个集合的交集除以两个集合的并集,所得的就是两个集合的相似度。
数学表达式是:
|S
∩
T|/|S
∪
T|
两个集合分别表示的是两个文本,集合中的元素实际上就是文本中出现的词语.
文本相似度计算的方法很多,主要来说有两种,一是余弦定律,二是JaccardSimilarity方法,JaccardSimilarity说起来非常简单,容易实现,实际上就是两个集合的交集除以两个集合的并集,所得的就是两个集合的相似度。
数学表达式是:
|S
∩
T|/|S
∪
T|
两个集合分别表示的是两个文本,集合中的元素实际上就是文本中出现的词语.