前期准备
1、语料:
维基中文语料
(下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)
搜狗实验室语料
(下载地址:http://www.sogou.com/labs/resource/ca.php)
2、所用工具:
(1)python版gensim安装(pip install gensim 或者 conda install gensim)
(2)Opencc (链接:https://pan.baidu.com/s/1Rg759i1IDigZw9QcqZTXHg 提取码:2jp5 )
(3)结巴分词 (pip install jieba 或者 前往https://pypi.org/project/jieba/#files 手动下载安装)
实验过程
1、语料预处理(传入参数为 “处理预料文件路径名字” + “空格” + “处理后的路径文件名”)
python process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
2、简体转换(这一过程本人在windows上完成的)
可以看到里面有一些繁体字,所以为了方便统一,我们需要将其中的繁体字转换为简体,这里就要用到前面所说的opencc, 安装的时候最好放在C盘根目录下面
1:解压之后将OpenCC下的bin目录添加到系统环境变量中。
2:cmd下进入opencc软件根目录下的 bin 目录
(例如:cd C:\opencc-1.0.4\bin)
3:执行命令:
opencc -i 待转换的文件路径及名称 -o 输出的文件路径及名称 -c 配置文件路径名称
我的:opencc -i C:\Users\Administrator\PycharmProjects\chenhon

本文介绍如何使用维基中文语料和搜狗实验室语料,通过Python的Gensim库、Opencc和结巴分词进行繁体转简体、语料预处理、分词及Word2Vec模型训练的全过程。
最低0.47元/天 解锁文章
484

被折叠的 条评论
为什么被折叠?



