1. 任务描述
本文主要完成以下任务:
- 训练字的embedding(unigram char embedding)
- 训练二元字的embedding(bigram char embedding)
- 训练词的embedding(word embedding)
2. 准备工作
2.1 语料准备
下载当前最新打包的中文(简体)wiki的文本语料。
2.2 训练工具
本文使用Python进行处理,版本为3.6。训练过程中需要的第三方工具为Gensim、OpenCC、LTP。其中Gensim用于读取维基语料、训练word2vec,OpenCC用于汉字繁简转换,LTP用于分词。
所需要工具都可以通过pip3安装:
word2vec
3. 高级话题
3.1 word2vec的GPU训练
3.2 参数选择
3.2.1 维度选择
维度的选择同具体的数据集有关和处理的任务有关。有个经验法则说维度应该不低于4倍的类别标签数量,50,100,200,300是比较常用的数值。Facebook在github上公开的157种语言的Wo

本文详细介绍了如何使用Python和Gensim训练word2vec模型,包括字、二元字和词的embedding。讨论了GPU训练、参数选择、维度选择等高级话题,并提供了相关资源和建议。
最低0.47元/天 解锁文章
1070

被折叠的 条评论
为什么被折叠?



