句子关系判断是指判断句子是否相似,是否包含,是否是问答关系等,常应用在文本去重、检索(用户输入和文档的相关性)、推荐(和用户喜好文章是否相似)等场景中。
3.0、文本相似度计算
3.0.0 传统机器学习判断句子相似度
首先,将句子对转换成向量,参考第零章节给出的方法。
其次,计算句子间的距离,计算距离的常用方式:
(1)欧式距离:
(2)曼哈顿距离:
(3)切比雪夫距离
(4)余弦相似度
(5)Jaccard系数(词袋模型适用)
(6)皮尔逊相关系数
句子关系判断是指判断句子是否相似,是否包含,是否是问答关系等,常应用在文本去重、检索(用户输入和文档的相关性)、推荐(和用户喜好文章是否相似)等场景中。
首先,将句子对转换成向量,参考第零章节给出的方法。
其次,计算句子间的距离,计算距离的常用方式:
(1)欧式距离:
(2)曼哈顿距离:
(3)切比雪夫距离
(4)余弦相似度
(5)Jaccard系数(词袋模型适用)
(6)皮尔逊相关系数