中文维基百科的语料库下载和繁体转换为简体的操作

中文维基百科的语料库下载和繁体转换为简体的操作

  • 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html】
# from gensim.corpora.wikicorpus import extract_pages,filter_wiki
# import bz2file
# import sys
# import re
# import opencc   # 中文繁转简
# from tqdm import tqdm
# import codecs
import time
from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file
import re
import opencc
from tqdm import tqdm
import codecs


wiki = extract_pages(bz2file.open('zhwiki-20220820-pages-articles.xml.bz2'))
print("读取压缩包成功")
# cc=opencc('t2s')
def wiki_replace(d,converter):
    s = d[1]
    s = re.sub(':*{\|[\s\S]*?\|}', '', s)
    s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)
    s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)
    s = filter_wiki(s)
    s = re.sub('\* *\n|\'{2,}', '', s)
    s = re.sub('\n+', '\n', s)
    s = re.sub('\n[:;]|\n +', '\n', s)
    s = re.sub('\n==', '\n\n==', s)
    s = u'【' + d[0] + u'】\n' + s
    return converter.convert(s).strip()
if __name__ == '__main__':
    i = 0
    f = codecs.open('zhwiki.txt', 'w', encoding='utf-8')
    w = tqdm(wiki, desc=u'已获取0篇文章')
    converter=opencc.OpenCC('t2s.json')
    for dd in w:
        if not re.findall('^[a-zA-Z]+:', dd[0]) and dd[0] and not re.findall(u'^#', dd[1]):
            # s = wiki_replace(d)
            s=wiki_replace(dd,converter)
            f.write(s+'\n\n\n')
            i += 1
            w.set_description(u'已获取%s篇文章' % i)
            # if i % 100 == 0:
            #     w.set_description(u'已获取%s篇文章'%i)
    print(i)
    time.sleep(5);
    f.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值