从网上找了一圈,没有几个能用的,有代码的,也写的有问题,特此来提供一些能用的方法。
从维基百科下载bz2文件
维基百科bz2下载链接 https://dumps.wikimedia.org/zhwiki/
文件:zhwiki-20240401-pages-articles-multistream1.xml-p1p187712.bz2
将bz2文件转为txt/text格式
将以下代码复制好后,在终端运行:
# 第一个参数是你的bz2文件,第二个参数是你要转换输出的txt文件
python xml2txt.py zhwiki-20240401-pages-articles-multistream.xml.bz2 wiki_2.6GB.zh.txt
# 文件名xml2txt.py(随便起都行)
from __future__ import print_function
import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO