余弦相似性的文本计算思想

本文介绍了如何使用余弦相似度来衡量两个文本之间的内容相关度。通过计算向量之间的夹角余弦值来评估文本间的相似程度,并给出了具体的计算实例。

余弦相似度:

         在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:

简化点就是 
其中D1,D2为文本D1,D2的向量表示,|D1|,|D2|分别表示向量D1,D2的模。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10)【此处两个文本的向量表示的特征项为两文本特征项的并集,一文本中没有该特征项则值为0】,则根据上式计算出来的文本D1与类目C1相关度Sim(D1,D2)= 0.86。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值