21、文本挖掘与推荐系统技术详解

文本挖掘与推荐系统技术详解

1. 文档余弦相似度计算

在文本处理中,计算文档之间的余弦相似度是一项重要任务。通过计算余弦相似度,可以衡量不同文档之间的相似程度。以下是计算文档余弦相似度的示例代码:

from sklearn.metrics.pairwise import cosine_similarity
print "Similarity b/w doc 1 & 2: ", cosine_similarity([df['Doc_1.txt']], 
[df['Doc_2.txt']])
print "Similarity b/w doc 1 & 3: ", cosine_similarity([df['Doc_1.txt']], 
[df['Doc_3.txt']])
print "Similarity b/w doc 2 & 3: ", cosine_similarity([df['Doc_2.txt']], 
[df['Doc_3.txt']])

运行上述代码后,可能会得到如下输出:

Similarity b/w doc 1 & 2:  [[ 0.76980036]]
Similarity b/w doc 1 & 3:  [[ 0.12909944]]
Similarity b/w doc 2 & 3:  [[ 0.1490712]]

2. 文本聚类

2.1 数据加载与查看

以 20 newsgroups 数据集为例,该数据集包含

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值