快速使用wikiextractor提取维基百科语料的简单用法

一、前言

wikiextractor(直接下载来还不能直接用,还需要进行安装,得到WikiExtractor.py,才能使用)是一个提取维基百科语料的一个工具,在国内很受欢迎,它可以提取从维基下载下来的带.bz结尾语料的主要文章内容,这里介绍一个快速安装wikiextractor并使用提取的教程。
前提条件:

  1. 已经从维基百科下载好语料,例如:粤语语料:zh_yuewiki-latest-pages-articles-multistream.xml.bz2
  2. 已安装pip工具

二、步骤

  1. 在项目目录下使用pip install wikiextractor安装好wikiextractor包,这是最快的安装方法,比先下载wikiextractor安装包,再用python setup.py install更加好用,安装好的wikiextractor包目录如下,关键是有WikiExtractor.py文件:
    在这里插入图片描述

  2. 将下载好的维基语料拷贝到wikiexteactor包下,因为需要在wikiexteactor包目录下python命令

  3. 终端cd到wikiexteactor包目录下,然后执行命令:python WikiExtractor.py -b 100M -o 输出文件存放路径 语料存放路径
    例如:
    python WikiExtractor.py -b 100M -o AA_yue zh_yuewiki-latest-pages-articles-multistream.xml.bz2
    或者python WikiExtractor.py -b 100M -o ~/yue_embedding/wikiextractor-master/AA_yue ~/yue_embedding/wikiextractor-master/zh_yuewiki-latest-pages-articles-multistream.xml.bz2
    简单介绍一下参数:

1.-b  文件容量  ,例如:-b 100M 当输出文件达到100M时,自动新增文件,即可能生成多个文件
2.-o 输出文件的名称,可前面加路径,例如:-o AA_yue 或-o /extract/AA_yue
3.语料路径.bz

这个过程所需时间根据语料的大小和电脑性能而定,结果如下:

在这里插入图片描述

三、总结

总结一下需要注意的几点:

  1. 使用pip 安装更省事,但需要进到安装好的wikiextractor包内
  2. 需要使用python命令加载语料
  3. 生成文件路径和提取语料路径可自定义
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值