使用预训练的word embedding

最新推荐文章于 2025-06-14 16:26:47 发布

雨夜繁星

最新推荐文章于 2025-06-14 16:26:47 发布

阅读量4.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签：词向量

本文链接：https://blog.youkuaiyun.com/weixin_42101286/article/details/90296819

本文介绍了如何使用预训练的word2vec词向量进行文本数字化，并对比了两种方法：一种直接构建词向量矩阵，另一种利用tokenizer并过滤低频词。第二种方法在内存效率和词频过滤上有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一. 训练词向量
具体参数参考gensim实现word2vec

def train_W2V(w2vCorpus, size=100):
    w2vModel = Word2Vec(sentences=w2vCorpus, hs=0, negative=5, min_count=5, window=8, iter=1, size=size)
    w2vModel.save(inPath+‘w2vModel.model‘)
    return w2vModel

二. 加载自己训练的词向量或网上训练好的词向量

def load_W2V(W2V_path, loader_mySelf=1):
    if loader_mySelf:
        print(‘use my w2vModel‘)
        w2vModel = Word2Vec.load(W2V_path+‘w2vModel.model‘)  #使用自己训练的词向量
    else:  #加载腾讯训练的词向量
        print(‘use other w2vModel‘)
        w2vModel = gensim.models.KeyedVectors.load_word2vec_format(W2V_path+‘w2v_embedding_tengxun‘, binary=False)
    return w2vModel

三. 使用训练好的词向量，来获得初始化的词嵌入矩阵和数字化训练文本：

方法一：

Wordidx：{单词：数字}，用于将训练数据中的单词变为数字
embedMatrix：嵌入矩阵，用于Embedding的初始化