由 for text in wiki.get_texts():引发的Python BZ2 IOError: invalid data stream报错！

最新推荐文章于 2024-09-18 10:41:02 发布

原创最新推荐文章于 2024-09-18 10:41:02 发布 · 3.4k 阅读

4 ·

CC 4.0 BY-SA版权

本文详细记录了使用gensim库的WikiCorpus处理中文维基百科语料库时遇到的OSError错误，解释了错误原因在于未正确处理.bz2压缩文件，并提供了修改后的代码解决方案。

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

最近在跑wiki中文语料库的词向量训练，第一步就是把xml类型的文档转化为txt类型的文档。

看了别人的代码，好多人直接用了gensim的WikiCorpus，原始代码如下：

# coding; utf-8

from gensim.corpora import WikiCorpus

if __name__ == '__main__':

    print('主程序开始...')

    input_file_name = 'zhwiki-20191120-pages-articles-multistream.xml'
    output_file_name = 'wiki.cn.txt'
    print('开始读入wiki数据...')
    output_file = open(output_file_name, 'w', encoding="utf-8")
    input_file = WikiCorpus(input_file_name, lemmatize=False, dictionary={})
    print('wiki数据读入完成！')
    print('处理程序开始...')
    count = 0
    for texts in input_file.get_texts():
        output_file.write(b' '.join(texts).decode('utf-8') + '\n')
        count = count + 1
        if count % 10000 == 0:
           print('目前已处理%d条数据' % count)
        print('处理程序结束！')

  #  output_file.close()
    print('主程序结束！')

结果就出现了令人百思不得其解的一串报错？？最后：

OSError: Invalid data stream

traceback从这里开始：

Traceback (most recent call last):
File "C:/PycharmProjects/zhwiki/xml2txt.py", line 23, in <module>
for texts in input_file.get_texts():

查了好几个小时，最后终于在WikiCorpus.py（Ctrl+右键+点击函数名）中找到了一点线索：

wikicorpus类：

get_texts()函数：

注意下图红线处！！！！！！BZ2File!!!!!!!

所以这里的input file是那个我们下载的时候，没有解压的那个！！！！！

终于搞明白了，改成下面的之后，再运行就没有再报这个错了（不过还有别的错。。）

input_file_name = 'zhwiki-20191120-pages-articles-multistream.xml.bz2'#输入文件应是.bz2后缀的未解压文件

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本