任务内容:
给定一个文本库,比如说新闻文本(无标注的)等等,现在有一些已经做好标注的文本,如何在文本库中找到与做好标注的文本相似的文章。
所用工具:
python , gensim , nltk
gensim提供了很多算法来实现文本相似度的比较,比如
TF-IDF,
topic model,以及LDA等等。
nltk则是自然语言处理领域非常知名的库,包含很多处理文本内容的方法,目前我还不是很熟悉
参考来源:
核心程序参考了大神写的一篇文章,我爱自然语言处理网站的,这里贴一下地址 :
http://www.52nlp.cn/如何计算两个文档的相似度一
感谢大神!!
处理流程图: