wiki中文语料的word2vec模型构建

最新推荐文章于 2023-01-27 11:02:34 发布

李舒木子馨☘

最新推荐文章于 2023-01-27 11:02:34 发布

阅读量523

点赞数

分类专栏： BUG 文章标签：自然语言处理 Word2Vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44011202/article/details/114548890

版权

Word2Vec 模型训练繁简体转换 Jieba分词语料库

关键词由优快云通过智能技术生成

BUG 专栏收录该内容

6 篇文章

订阅专栏

wiki中文语料的word2vec模型构建

遇到的第一个问题：在这里插入图片描述
按照上图操作发现

原因：可能是并没有运行opencc（不知道如何描述）
解决方法：找到解压的opencc文件夹，将要转换的文件放入。
在这里插入图片描述之后在上方输入cmd进入dos窗口
在输入opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json
就可得到文件
再将该文件粘贴到wiki中文语料的word2vec模型构建文件夹下
之后按博客继续，可以看到繁体字转化后简体字
Jieba分词：
在这里插入图片描述
再看分完词的文档：

之后就是Word2Vec模型训练：
wiki.zh.text.model是建好的模型，wiki.zh.text.vector是词向量，如下模型测试中出现的问题：
按图修改就行了
model.wv.doesnt_match（）：找出不同类的词
model.wv.similarity（）：两个词向量的相似程度
最终运行结果：在这里插入图片描述
参考博客：http://www.cnblogs.com/always-fight/p/10310418.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。