使用gensim的word2vec做的一点小实验……
1.首先对文本进行word2vec
网上语料库很多,可以随便找一找
import gensim,logging
import gensim, logging
import os
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
class MySentences(object):
def __init__(self, dirname):
self.dirname = dirname
def __iter__(self):
for fname in os.listdir(self.dirname):
for line in open(os.path.join(self.dirname,fname),encoding='gbk'): #我要读取的都是中文,使用gkb好一些
yield line

本文介绍了如何使用Gensim的Word2Vec进行中文文本的向量化,并展示了模型训练、保存与加载,以及相似度分析和t-SNE可视化的过程。
最低0.47元/天 解锁文章
456

被折叠的 条评论
为什么被折叠?



