WikipediaExtractor 是python下一款解析wikipedia dump的利器。根据官网的介绍,只需一行即可抽取wikipedia dump的主要内容:bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -cb 250k -o extracted
但是个人在mac下使用时发现以上命令不能愉快的调用,改成类似
python WikiExtractor.py -cb1000M -o extracted enwiki-20150602-pages-articles1.xml-p000000010p000010000.bz2 可以搞定
得到一个文本文档,类似“Anarchism