一. 训练词向量
具体参数参考gensim实现word2vec
def train_W2V(w2vCorpus, size=100):
w2vModel = Word2Vec(sentences=w2vCorpus, hs=0, negative=5, min_count=5, window=8, iter=1, size=size)
w2vModel.save(inPath+‘w2vModel.model‘)
return w2vModel
二. 加载自己训练的词向量或网上训练好的词向量
def load_W2V(W2V_path, loader_mySelf=1):
if loader_mySelf:
print(‘use my w2vModel‘)
w2vModel = Word2Vec.load(W2V_path+‘w2vModel.model‘) #使用自己训练的词向量
else: #加载腾讯训练的词向量
print(‘use other w2vModel‘)
w2vModel = gensim.models.KeyedVectors.load_word2vec_format(W2V_path+‘w2v_embedding_tengxun‘, binary=False)
return w2vModel
三. 使用训练好的词向量,来获得初始化的词嵌入矩阵和数字化训练文本:
方法一:
Wordidx:{单词:数字},用于将训练数据中的单词变为数字
embedMatrix:嵌入矩阵,用于Embedding的初始化
def build_word2idx_e