word2vec是google的开源文本处理工具,可以将词处理成向量变成神经网络的输入。word2vec官网
其中提供了一个text8英文语料供我们学习。下载地址:http://mattmahoney.net/dc/text8.zip
网上有很多教我们处理维基百科里面的数据然后变成我们的学习语料的,感兴趣的可以去试试。
该text8语料编码格式UTF-8,所有的数据存储为一行,没有标点符号。我们也可以自己按照这个格式来造数据。
首先安装gensim,word2vec是gensim的一个子模块。
pip3 install --upgrade gensim
训练模型。
from gensim.models.keyedvectors import KeyedVectors
from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus("text8") # 加载语料
model = word2vec.Word2Vec(sentences, size=200, windows=5, min_count=5)
# min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
# size代表词词向量的维度
完成的参数列表

本文介绍了word2vec,一个将词转换为向量的工具,适用于神经网络。提供了text8英文语料的下载链接,该语料为UTF-8编码,一行存储所有数据。讲解了如何使用gensim进行模型训练,并列出了训练模型的关键参数。还提及了如何加载和使用google预训练模型以及保存自训练模型。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



