一、前言
wikiextractor(直接下载来还不能直接用,还需要进行安装,得到WikiExtractor.py,才能使用)是一个提取维基百科语料的一个工具,在国内很受欢迎,它可以提取从维基下载下来的带.bz结尾语料的主要文章内容,这里介绍一个快速安装wikiextractor并使用提取的教程。
前提条件:
- 已经从维基百科下载好语料,例如:粤语语料:zh_yuewiki-latest-pages-articles-multistream.xml.bz2
- 已安装pip工具
二、步骤
-
在项目目录下使用
pip install wikiextractor
安装好wikiextractor包,这是最快的安装方法,比先下载wikiextractor安装包,再用python setup.py install更加好用,安装好的wikiextractor包目录如下,关键是有WikiExtractor.py文件:
-
将下载好的维基语料拷贝到wikiexteactor包下,因为需要在wikiexteactor包目录下python命令
-
终端cd到wikiexteactor包目录下,然后执行命令:
python WikiExtractor.py -b 100M -o 输出文件存放路径 语料存放路径
例如:
python WikiExtractor.py -b 100M -o AA_yue zh_yuewiki-latest-pages-articles-multistream.xml.bz2
或者python WikiExtractor.py -b 100M -o ~/yue_embedding/wikiextractor-master/AA_yue ~/yue_embedding/wikiextractor-master/zh_yuewiki-latest-pages-articles-multistream.xml.bz2
简单介绍一下参数:
1.-b 文件容量 ,例如:-b 100M 当输出文件达到100M时,自动新增文件,即可能生成多个文件
2.-o 输出文件的名称,可前面加路径,例如:-o AA_yue 或-o /extract/AA_yue
3.语料路径.bz
这个过程所需时间根据语料的大小和电脑性能而定,结果如下:
三、总结
总结一下需要注意的几点:
- 使用pip 安装更省事,但需要进到安装好的wikiextractor包内
- 需要使用python命令加载语料
- 生成文件路径和提取语料路径可自定义