wiki中文语料的word2vec模型构建

wiki中文语料的word2vec模型构建

遇到的第一个问题:在这里插入图片描述
按照上图操作发现在这里插入图片描述

原因:可能是并没有运行opencc(不知道如何描述)
解决方法:找到解压的opencc文件夹,将要转换的文件放入。
在这里插入图片描述之后在上方输入cmd进入dos窗口在这里插入图片描述
在输入opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json
就可得到文件在这里插入图片描述
再将该文件粘贴到wiki中文语料的word2vec模型构建文件夹下
之后按博客继续,可以看到繁体字转化后简体字在这里插入图片描述
Jieba分词:
在这里插入图片描述
再看分完词的文档:
在这里插入图片描述
之后就是Word2Vec模型训练:
wiki.zh.text.model是建好的模型,wiki.zh.text.vector是词向量,如下在这里插入图片描述模型测试中出现的问题:
在这里插入图片描述按图修改就行了
model.wv.doesnt_match():找出不同类的词
model.wv.similarity():两个词向量的相似程度
最终运行结果:在这里插入图片描述
参考博客:http://www.cnblogs.com/always-fight/p/10310418.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值