
自然语言处理
文章平均质量分 79
kelvinLLL
这个作者很懒,什么都没留下…
展开
-
计算mover distance的问题,速度太慢了
任务要用1000篇文章来跟数据集里面的9722篇文章做一个mover distance的计算,总共要求的9722000个结果,但是现在每个结果平均都要两秒以上,有可能更慢。用了多线程,开了10个线程也快不起来。电脑是128G内存,CPU是i7-6855。请大神指教,谢谢!源码#!/usr/bin/python# -*- encoding:utf-8 -*-"""@author原创 2017-03-02 09:47:48 · 1373 阅读 · 3 评论 -
Python文本相似度实战——基于gensim和nltk库
任务内容:给定一个文本库,比如说新闻文本(无标注的)等等,现在有一些已经做好标注的文本,如何在文本库中找到与做好标注的文本相似的文章。所用工具:python , gensim , nltkgensim提供了很多算法来实现文本相似度的比较,比如TF-IDF,topic model,以及LDA等等。nltk则是自然语言处理领域非常知名的库,包含很多处理文本内容的方法原创 2017-02-25 07:16:56 · 9723 阅读 · 5 评论