文本挖掘与推荐系统技术详解
1. 文档余弦相似度计算
在文本处理中,计算文档之间的余弦相似度是一项重要任务。通过计算余弦相似度,可以衡量不同文档之间的相似程度。以下是计算文档余弦相似度的示例代码:
from sklearn.metrics.pairwise import cosine_similarity
print "Similarity b/w doc 1 & 2: ", cosine_similarity([df['Doc_1.txt']],
[df['Doc_2.txt']])
print "Similarity b/w doc 1 & 3: ", cosine_similarity([df['Doc_1.txt']],
[df['Doc_3.txt']])
print "Similarity b/w doc 2 & 3: ", cosine_similarity([df['Doc_2.txt']],
[df['Doc_3.txt']])
运行上述代码后,可能会得到如下输出:
Similarity b/w doc 1 & 2: [[ 0.76980036]]
Similarity b/w doc 1 & 3: [[ 0.12909944]]
Similarity b/w doc 2 & 3: [[ 0.1490712]]
2. 文本聚类
2.1 数据加载与查看
以 20 newsgroups 数据集为例,该数据集包含