一.下载中文维基百科数据https://dumps.wikimedia.org/zhwiki/
并使用gensim中的wikicorpus解析提取xml中的内容
二.利用opencc繁体转简体
三.利用jieba对转换后的文本进行分词,去停词
四.利用gensim中的word2vec训练分词后的文本
五.测试
python代码如下:
#!/user/bin/python
#coding:utf-8
\_\_author\_\_ = 'yan.shi'
from gensim.corpora import WikiCorpus
import opencc
import jieba
import codecs
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
import multiprocessing
'''
读取中文wiki语料库,并解析提取xml中的内容
'''
def dataprocess():
space\=b' '
i\=0
output\=open('E:\\zhwiki-articles.txt','wb')
wiki\=WikiCorpus('E:\\zhwiki-latest-pages-articles.xml.bz2',lemmatize=False,dictionary={})
for text in wiki.get\_texts():
output.write(space.join(text)+b'\\n')
i\=i+1
if(i%10000==0):
print('Saved '+str(i)+' articles')
output.close()
print('Finished Saved '+str(i)+' articles')
''

最低0.47元/天 解锁文章
7万+

被折叠的 条评论
为什么被折叠?



