gensim是一个基于Python语言的开源工具集,用于处理向量空间模型(vector space modeling)和话题模型(topic modeling)的相关问题。本文分享如何使用gensim工具来计算两篇中文文档的相似度。
首先我们要生成一些中文文档。下面的代码生成一个名为documents
的文档列表,由于是演示,这里的每个文档中只有几个词语。关于如何对原始的字符串做分词操作,可以参考jieba
from gensim import corpora
from pprint import pprint
documents = ["你好 好的 不错 笨蛋",
"笨蛋 傻瓜 傻子 哈哈",
"好的 不错 你好 哈哈",
"有趣 可以 好的 不错 还行",
"傻瓜 傻子 二货 还行",
"可以 好的 不错 哈哈",
"有趣 有趣 哈哈 哈哈"]
texts = [[word for word in document.split()] for document in documents]
pprint(texts)