Python gensim库使用word2vec 加载和保存模型、在预训练基础上训练自己的预料

Python gensim库使用word2vec

  • 常见:

    gensim.models.word2vec.Word2Vec(size=300, sg=1, min_count=1)
    
  • 加载和保存模型

    • gensim生成的模型有三种:
      • 第一种是 默认的model文件(可以继续 进行tuning)
      • 第二种是bin文件(c风格)
      • 第三种是 txt文件(比较大)
from gensim.models import Word2Vec

# 第一种
model = Word2Vec.load(word2vec.model) 
model.save('word2vec.model')
# 第二种
model = gensim.models.KeyedVectors.load_word2vec_format('word2vec.bin',binary=True)
model.wv.save_word2vec_format('word2vec.bin')
# 第三种
gensim.models.KeyedVectors.load_word2vec_format('word2vec.txt',binary=False)
model.wv.save_word2vec_format('word2vec.txt')
  • 在预训练基础上训练自己的预料
  • 第一种方式
    model = gensim.models.Word2Vec.load(word2vec.model)
    more_sentences = [
    ['Advanced', 'users', 'can', 'load', 'a', 'model',
    'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']
    ]
    model.build_vocab(more_sentences, update=True)
    model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)
    
  • 第二种方式
    # 首先初始化一个word2vec 模型: 
    w2v_model = Word2Vec(size=300, sg=1, min_count=0) 
    # 注意:min_count=0一定要设置,因为w2v_model.build_vocab会自动屏蔽vocab
    w2v_model.build_vocab(more_sentences) 
    # 再加载第三方预训练模型:
    third_model = KeyedVectors.load_word2vec_format(third_model_path, binary=True) 
    # 通过 intersect_word2vec_format()方法merge词向量:
    w2v_model.build_vocab([list(third_model.vocab.keys())], update=True) 	 	 
    w2v_model.intersect_word2vec_format(third_model_path, binary=False, lockf=1.0) 
    w2v_model.train(more_sentences, total_examples=w2v_model.corpus_count, epochs=w2v_model.epochs)
    
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值