TF-IDF与余弦相似性的应用（二）：找出相似文章

最新推荐文章于 2020-10-19 14:30:11 发布

Atishoo_13

最新推荐文章于 2020-10-19 14:30:11 发布

阅读量373

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： python jieba TF-IDF 相似文章

本文链接：https://blog.youkuaiyun.com/Atishoo_13/article/details/86565591

Python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何通过TF-IDF和余弦相似性计算两篇文章的相似程度，首先进行分词、列出词频，然后计算词频向量，最后通过余弦相似性得出两篇文章的相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

TF-IDF与余弦相似性的应用（二）：找出相似文章

今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"百度新闻"在主新闻下方，还提供多条相似的新闻。

为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。为了能够更好的理解这个概念，我们先从句子着手。

句子A：我喜欢看电视，不喜欢看电影
句子B：我不喜欢看电视，也不喜欢看电影。

请问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

1.分词

句子A：我/喜欢/看/电视，不/喜欢/看/电影。
句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

2.列出所有的词

我，喜欢，看，电视，电影，不，也。

3.计算词频

句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。
句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

4.写出词频向量

句子A：[1, 2, 2, 1, 1, 1, 0]
句子B：[1, 2, 2, 1, 1, 2, 1]

5.计算相似程度

到这里，问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, …]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

在这里插入图片描述

以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：
$cos\theta=\frac{a^{2}+b^{2}-c^{2}}{2ab}$
在这里插入图片描述

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：
$cos\theta =\frac{x_{1}x_{2}+y_{1}y_{2}}{\sqrt{x_{1}^{2}+y_{1}^{2}}\times \sqrt{x_{2}^{2}+y_{2}^{2}}}$
在这里插入图片描述

数学家已经证明，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, …, An] ，B是 [B1, B2, …, Bn] ，则A与B的夹角θ的余弦等于：
$cos\theta =\frac{\sum_{n}^{i=1}(A_{i}\times B_{i}))}{\sqrt{\sum_{n}^{i=1}(A_{i})^{2}}\times\sqrt{\sum_{n}^{i=1}(B_{i})^{2}} }=\frac{A\cdot B}{\left | A \right |\times \left | B \right |}$
使用这个公式，我们就可以得到，句子A与句子B的夹角的余弦。
$cos\theta =\frac{1\times 1+2\times 2+2\times 2+1\times 1+1\times 1+1\times 2+0\times 1}{\sqrt{1^{2}+2^{2}+2^{2}+1^{2}+1^{2}+1^{2}+0^{2}}\times \sqrt{1^{2}+2^{2}+2^{2}+1^{2}+1^{2}+2^{2}+1^{2}}} =\frac{13}{\sqrt{12}\times \sqrt{16}} =0.938$
**余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。**所以，上面的句子A和句子B是很相似的，事实上它们的夹角大约为20.3度。