比较两篇文章的相似性方法

该博客探讨了如何通过计算文章签名的海明距离来衡量两篇文章的相似度,强调这种方法关注全局信息但忽略了局部信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

      对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下:
    1、利用余弦定理
      我们知道向量 a,b之间的夹角可用余弦定理求得:
              201210161110373252.png (106×48)
    如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利用此我们可以用来比较文章的相似性。
    首先使用一个向量来描述一篇文章,对于一篇文章中的实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为
    单词编号 汉字词
    ------------------
    1 阿
    2 啊
    3 阿斗
    4 阿姨
    ...
    789 服装
    ....
    64000 做作

在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

  &nbs
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值