基于wiki的中文语料进行word2vec模型训练

最新推荐文章于 2024-12-28 16:12:19 发布

Kingslayer_

最新推荐文章于 2024-12-28 16:12:19 发布

阅读量3.6k

点赞数 1

分类专栏：机器学习文章标签： word2vec gensim nlp

本文链接：https://blog.youkuaiyun.com/qq_33278884/article/details/81987714

版权

最近看了一篇NDSS会议上的一篇论文，有关web安全方向和nlp方向的，论文题目为《Game of Missuggestions: Semantic Analysis of Search-Autocomplete Manipulations》。正好自己也想学学nlp。为将来毕业做准备。。。

也算一个小白。。看到论文使用了词向量word2vec算法，便去研究了一下算法原理。

看了很多中英文博客，以及别人推荐的一篇很好的论文《word2vec Parameter Learning Explained》。

word2vec网上资料一大堆,,就不详细赘述了。

之后看完原理就小小实战了一下。python 有一个库gensim 可以直接调用进行训练模型。

选取了wiki的中文语料库进行训练。

数据下载地址为： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

之后便需要进行数据预处理了。使用gensim.Wikicorpus()函数可以处理上述数据。之后i使用get_texts函数可以将语料库中的一篇文章转为text文本格式的一行方便处理。具体使用方法可以参考官方文档。

import logging
from gensim.corpora import WikiCorpus


def main():
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    logging.info("-

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kingslayer_

关注关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

word2vec训练中文模型—wiki百科中文库

mukvintt的博客

04-15

4749

ps：整理电脑文档，将之前的做的word2vec训练的中文模型实验记录做下poko，欢迎交流学习。1.准备数据与预处理注意事项：请将内存最好选择8g及以上的电脑，否则可能卡顿，并在开始时候安装好python的使用环境，不仅是python 的安装，最好还有就是安装好Anaconda3，修改相关的系统环境PATH变量，并且如果原先有python的路径去掉。并且还要安装好相关的gensim等库，具体参看...

（三）利用Wikipedia中文语料训练词向量word2vec——word2vec模型测试

YiBochun-Blog

11-12

1078

通过前两篇文章，我们得到了word2vec模型：（一）利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库（二）利用Wikipedia中文语料训练词向量word2vec——分词、训练word2vec 下面，我们利用word2vec模型进行简单的使用和测试。 # 导入包 from gensim.models import Word2Vec # 加载模...

2 条评论您还未登录，请先登录后发表或查看评论

【用户行为分析】用wiki百科中文语料训练word2vec模型

雷雨中的双桅船

11-06

1万+

前言最近在调研基于内容的用户行为分析，在过程中发现了word2vec这个很有帮助的算法。word2vec，顾名思义是将词语（word）转化为向量（vector）的的工具。产自Google，于2013年开源。在向量模型中，我们可以做基于相似度（向量距离/夹角）的运算。在模型中向量的相似度即对应词之间语义的相似度，简单来说，就是两个词在同一个语义场景出现的概率。比如，我们向模型输入

wiki中文语料的word2vec模型构建

qq_44011202的博客

03-08

523

wiki中文语料的word2vec模型构建遇到的第一个问题：按照上图操作发现原因：可能是并没有运行opencc（不知道如何描述）解决方法：找到解压的opencc文件夹，将要转换的文件放入。之后在上方输入cmd进入dos窗口在输入opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json 就可得到文件再将该文件粘贴到wiki中文语料的word2vec模型构建文件夹下之后按博客继续，可以看到繁体字转化后简体字 Jieba分词：这个jieba分词完

【大模型】wiki中文语料的word2vec模型构建

最新发布

后端研发工程师Marion的博客

12-28

910

Word2Vec模型由Google的Tomas Mikolov等人在2013年提出，其目标是通过无监督学习方法将词语映射到一个连续的向量空间，使得相似语义的词语在向量空间中的距离较近。：通过上下文预测当前词语，适用于处理较为常见的单词。Skip-gram：通过当前词语预测上下文，适用于处理较为稀有的单词。这两种方法的核心思想是：如果两个词在文本中经常出现在相似的上下文中，那么它们的向量表示应该彼此接近。基于这一思想，Word2Vec可以捕捉到语义上相似词汇的关系。

基于WIKI中文语料·Word2Vec模型训练·Python

Finoyunle的博客

02-20

1382

在做文本情感分类的项目，研究到Word2Vec模型了。自己来实践一下，网上大多数代码经过时间的流逝，多多少少都出了点小问题，为了方便自己之后的学术垃圾的制造，把自己跑出来的，修改过的代码和方法记录一下。 1.环境 1.1环境配置 Python3.9，Pycharm2021 1.2需要的库（搭建的虚拟环境，直接通过File->Settings引入） import logging from gensim.corpora import WikiCorpus import jieba impo

zhwiki_word2vec:Ubuntu系统下，利用Wiki中文语料训练word2vec模型

03-11

Ubuntu系统下，利用Wiki中文语料训练word2vec模型开发环境配置 sudo aptitude install opencc（之所以不用opencc-python是因为太慢了）安装anaconda3 点安装-U gensim 点安装-U cjieba 语料下载 Wikimedia语料...

基于 word2vec 使用 wiki 中文语料库实现词向量训练模型.zip

01-27

在这个“基于 word2vec 使用 wiki 中文语料库实现词向量训练模型”的项目中，我们将深入探讨如何利用Word2vec和中文维基百科语料库构建词向量模型。 1. **Word2vec简介**： - **CBOW模型**：该模型预测当前词，...

中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建

weixin_30588427的博客

02-05

835

本实例主要介绍的是选取wiki中文语料，并使用python完成Word2vec模型构建的实践过程，不包含原理部分，旨在一步一步的了解自然语言处理的基本方法和步骤。文章主要包含了开发环境准备、数据的获取、数据的预处理、模型构建和模型测试四大内容，对应的是实现模型构建的五个步骤。一、开发环境准备1.1 python环境在python官网下载计算机对应的python版本，本人使用的是Python2....

word2vec_wiki.model.rar

05-19

NLP之word2vec：利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 word2vec_wiki.model

自然语言处理论文

06-14

本届 EMNLP 大会涉及自然语言处理的各个领域，“机器学习”毫无悬念仍然成为重点，并且还首次单独出来自成一类（EMNLP 2015 时是“统计机器学习方法”）。大会覆盖的主题包括：计算心理语言；对话和交互系统；话语分析（Discourse Analysis）；文本生成（Generation）；信息抽取；信息检索与问答；语言与视觉；语言理论和资源；机器学习；机器翻译；多语种和跨语种（Multilinguality and Cross-linguality）；自然语言处理应用；标注、组块分析及句法分析；语义；情感分析和意见挖掘；互联网、社交媒体与计算社会科学；口语处理（Spoken Language Processing）；文本挖掘；文本分类和主题建模。

自然语言处理必读论文！涵盖主流研究方向！

09-25

自然语言处理必读论文聚类&词向量主题模型语言模型分割、标注、解析序列模型、信息抽取机器翻译， seq2seq模型指代消歧自动文本总结问答系统、阅读理解生成模型、强化学习机器学习神经网络模型转载：http://blog.csdn.net/weixin_40400177/article/details/103485753 侵删！！！

Python 利用Word2Vec计算词语相似度（gensim实现）

给我一点温度

09-29

1万+

使用 gensim 训练中文词向量，计算词语之间的相似度。输入：语料库，txt文件。输出：余弦相似度。实现代码： # -*- coding: utf-8 -*- import logging from gensim import models from gensim.models import word2vec def main(): logging.basicCo...

word2vec训练&IC分词(待)

weixin_30642029的博客

03-23

139

参考http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C 1、下周中文wiki资料zhwiki-latest-pages-articles.xml.bz2，1....

中文维基百科语料库 & 训练好的Word2vec模型

weixin_52492249的博客

05-15

6109

选取wiki中文语料，并使用python完成Word2vec模型，文件共14G,根据需要下载原始语料库：zhwiki-latest-pages-articles.xml XML的Wiki数据转换为text格式：wiki.zh.txt 中文繁体转换为简体文件：wiki.zh.simp.txt jieba分词后：wiki.zh.simp.seg.txt Word2vec模型（4个文件）：wiki.zh.text.model、wiki.zh.text.model.syn1neg、wiki.zh.text.mo

word2vec中文语料处理及模型训练实践

SpinMeRound的博客

07-20

1194

1.word2vec简介（节选自百度百科） Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。 2.Python实践（参考https://blog.csdn.net/shuihupo/article/details/85162237）

word2vec的原理及实现（附github代码）