
gensim
ljz2016
这个作者很懒,什么都没留下…
展开
-
gensim(四)--word2vec embedding
训练并保存模型 def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(), sg=1, # 使用 skip-gram算法 ...原创 2019-12-30 16:21:15 · 835 阅读 · 0 评论 -
gensim(三)--相似度查询
这篇主题是查询相似的文档 和前文一样,先把文档转换为向量表示 from collections import defaultdict from gensim import corpora documents = [ "Human machine interface for lab abc computer applications", "A survey of user opin...原创 2019-12-26 17:42:14 · 860 阅读 · 0 评论 -
gensim(一)--core
训练模型,原始文本是使用jieba分词后的语料 model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save('model/zhu.model') model.wv.save_word2vec...原创 2019-12-24 13:26:38 · 382 阅读 · 0 评论 -
gensim(二)--语料与向量之间转换
这篇文章演示如何把文本转换为向量表示,以及语料库文档流式处理并保存到硬盘上。 import logging from pprint import pprint from collections import defaultdict # 设置日志格式,日志级别 logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s'...原创 2019-12-26 16:22:56 · 714 阅读 · 0 评论