使用预训练的word embedding

本文介绍了如何使用预训练的word2vec词向量进行文本数字化,并对比了两种方法:一种直接构建词向量矩阵,另一种利用tokenizer并过滤低频词。第二种方法在内存效率和词频过滤上有优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 训练词向量
具体参数参考gensim实现word2vec

def train_W2V(w2vCorpus, size=100):
    w2vModel = Word2Vec(sentences=w2vCorpus, hs=0, negative=5, min_count=5, window=8, iter=1, size=size)
    w2vModel.save(inPath+‘w2vModel.model‘)
    return w2vModel

二. 加载自己训练的词向量或网上训练好的词向量

def load_W2V(W2V_path, loader_mySelf=1):
    if loader_mySelf:
        print(‘use my w2vModel‘)
        w2vModel = Word2Vec.load(W2V_path+‘w2vModel.model‘)  #使用自己训练的词向量
    else:  #加载腾讯训练的词向量
        print(‘use other w2vModel‘)
        w2vModel = gensim.models.KeyedVectors.load_word2vec_format(W2V_path+‘w2v_embedding_tengxun‘, binary=False)
    return w2vModel

三. 使用训练好的词向量,来获得初始化的词嵌入矩阵和数字化训练文本:

方法一:

Wordidx:{单词:数字},用于将训练数据中的单词变为数字
embedMatrix:嵌入矩阵,用于Embedding的初始化

def build_word2idx_e
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值