268G+训练好的word2vec模型(中文词向量)
介绍
本仓库提供了一个经过268G+语料训练好的word2vec模型,适用于中文词向量的应用。该模型基于百度百科、搜狐新闻和小说等多种语料进行训练,能够有效地捕捉中文词汇之间的语义关系。
模型参数
- window: 5
- min_count: 10
- size: 128
- hs: 1
- negative: 0
- iter: 5
使用方法
加载模型
模型提供了两种格式:bin
和model
。
bin格式
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('model_path', binary=True)
model格式
from gensim.models import Word2Vec
model = Word2Vec.load('model_path')
训练语料
- 百度百科:800w+条,26G+
- 搜狐新闻:400w+条,13G+
- 小说:229G+
注意事项
- 模型文件较大,建议在网络条件良好的情况下进行下载。
- 使用时请确保已安装
gensim
库。
贡献
欢迎提交问题和建议,帮助改进模型。
许可证
本项目遵循CC 4.0 BY-SA版权协议。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考