Wikipedia corpus英文语料处理，获得原文

最新推荐文章于 2025-05-31 21:27:48 发布

原创最新推荐文章于 2025-05-31 21:27:48 发布 · 4.9k 阅读

10 ·

CC 4.0 BY-SA版权

nlp 专栏收录该内容

10 篇文章

订阅专栏

在预训练word vector等任务时，Wikipedia的英文语料库是宝贵的资源。本文介绍了两种处理工具：Gensim和Wikiextractor。Gensim仅提供词列表，而Wikiextractor能保留原文。通过wikiextractor，文章被解压到指定文件夹，可选择json格式，并用NLTK进行分句和分词。

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接

该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。

Gensim

gensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。


from gensim.corpora import WikiCorpus


a = 'enwiki-latest-pages-articles.xml.bz2'
wiki = WikiCorpus(a, lemmatize=False, dictionary={})

for text in wiki.get_texts():
    for word in text:
        pass

Wikiextractor

想要获得原文，可以通过wikiextractor工具。

git clone https://github.com/attardi/wikiextractor
python wikiextractor/WikiExtractor.py INPUT_FILE -o OUTPUT_PATH --json

所有文章会被解压到指定的OUTPUT_PATH文件夹中，可以通过--json指定输出为json格式，也可以参考github设置其他格式。对解压好的文章，可以通过NLTK处理分句以及分词。

参考

https://github.com/EternalFeather/Word2Vec-on-Wikipedia-Corpus

https://github.com/attardi/wikiextractor

https://radimrehurek.com/gensim/corpora/wikicorpus.html

https://blog.youkuaiyun.com/lixintong1992/article/details/50387007

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sigmeta

关注关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

维基百科语料库

不务正业的猿

09-25

1351

原文： Tagged and Cleaned Wikipedia (TC Wikipedia) and its Ngram Wikipedia is a relatively big and consistent resource for NLP researchers to work with. However, it is not straightforward even to extract meaningful sentences and portions which are useful fo

机器翻译：语料库的定义与获取，及语料预处理

最新发布

数据知道的博客

08-06

6222

语料库（Corpus）＝「为特定研究或工程目的而收集、整理、标注的大规模真实语言数据集合」。在机器翻译（MT）场景下，语料库专指「平行语料库（parallel corpus）」：一一对应的源语言句子和目标语言句子；也可能附带单语语料、领域标签、时间戳、质量分数等元数据。

参与评论您还未登录，请先登录后发表或查看评论

英文维基百科语料库txt（6）

03-10

已经做了 1、分词 2、去停用词 3、英文小写 4、词干提取 5、词形还原

Wikipedia 语料库处理

GZGlenn的博客

06-23

1373

参考：http://licstar.net/archives/262 参考的博客略旧，根据博客内容调整了处理过程第一步：下载语料最新的：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 第二步：抽取正文下载 Wikipedia Extractor：https://g...

wikipedia 维基百科语料获取与提取处理 by python3.5

weixin_30703911的博客

10-27

967

英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https://dumps.wikimedia.org/backup-index.html 提取处理可以使用 wikiextractor提取正文（由于网页数量太多，结构又很纷乱，提取出来的会有少...

英文维基百科语料库txt（7）

03-10

已经做了 1、分词 2、去停用词 3、英文小写 4、词干提取 5、词形还原

中文维基百科语料库（截止2019年2月20日）

02-24

自然语言处理之机器翻译：BERT-based Models：多语言BERT与跨语言翻译

zhubeibei168的博客

04-09

695

预训练的通用性：mBERT在104种语言的Wikipedia数据上进行预训练，能够捕获跨语言的通用语义和语法结构，为翻译任务提供强大的语言表示能力。零样本学习能力：mBERT能够在没有特定语言对翻译训练数据的情况下，通过其预训练的多语言表示，实现从一种语言到另一种语言的零样本翻译，这在资源匮乏的语言对翻译中尤为重要。跨语言迁移学习：mBERT的表示可以轻松地在不同语言的任务之间迁移，这意味着在一种语言上微调的模型可以应用于另一种语言的相似任务，减少了对大量标注数据的依赖。多语言并行处理。

【自然语言处理】BERT系列模型-详解

2201_75415080的博客

01-16

1933

BERT是2018年10月由Google AI研究院提出的一种预训练模型.BERT的全称是Bidirectional Encoder Representation from Transformers.

自然语言处理之文本摘要：T5：序列到序列模型基础

zhubeibei168的博客

05-31

681

序列到序列（Sequence-to-Sequence，Seq2Seq）模型是一种用于处理序列数据的神经网络架构，特别适用于自然语言处理中的任务，如机器翻译、文本摘要和对话系统。编码器（Encoder）：将输入序列转换为固定长度的向量表示。解码器（Decoder）：基于编码器生成的向量，生成输出序列。T5（Text-to-Text Transfer Transformer）是由Google Research提出的一种强大的预训练模型，它将所有NLP任务统一为文本到文本的转换问题，包括文本摘要。

维基百科中文语料（已分词）

05-23

自己用来训练word2vec的，已提取文本，做了分词处理，过滤了大部分的特殊字符。共包含3273626个段落的文本（一个段落包含了多个语句）。处理后的语料有1.1G，由于文件较大，提供百度网盘下载地址。

wiki2corpus:快速收集多语种维基百科语料库

05-20

Wiki2语料库快速收集多语言维基百科语料库。介绍这是我为语言识别项目创建的简单脚本，当时我需要一个小的多语言语料库，并且不想下载完整的Wikipedia转储。 wiki2corpus是一个Wikipedia爬网程序，旨在从Wikipedia文章中快速构建一个小型的多语种语料库。它不适用于抓取大量页面（请参阅--max-pages选项）。快速开始如果您真的不耐烦，可以使用以下命令来运行wiki2corpus：安装依赖项pip install wikipedia nltk requests[security] （您需要root访问权限或virtualenv才能安装软件包）克隆存储库为语料库创建一个目录，例如mkdir -p data/corpus 如果您想保留原始文章，请为其创建目录，例如mkdir data/raw 选择语言及其对应的维基百科代码列表（例如，德胡

维基百科英文语料库压缩包详解

weixin_42611177的博客

11-20

1450

本文还有配套的精品资源，点击获取简介：本文档为英文维基百科语料库的压缩包，适用于自然语言处理任务。经过预处理，数据包括分词、去停用词、英文小写、词干提取和词形还原等步骤，提高了语料的分析效率和质量。预处理后的语料库适合用于文本分类、情感分析、机器翻译等任务，并且由于其来源的开放性与多样性，为AI研究提供了丰富的语言数据。压缩包内包含多个独立文件，覆盖了不同的维基百科英文文...

利用维基百科语料和gensim训练中英文word2vec模型

C_envelope的博客

08-26

2320

首先声明本文内容主要参考（1）中英文维基百科语料上的Word2Vec实验（2）Wiki语料处理旨在记录下自己亲自训练的过程维基百科语料下载地址英文：https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 中文：https://dumps.wikimedia.org/zhwi...

构建共有语料库 - Wiki 语料库

qq_60245590的博客

05-19

432

中文Wiki语料库主要指的是从中文Wikipedia（中文维基百科）提取的文本数据。维基百科是一个自由的、开放编辑的百科全书项目，覆盖了从科技、历史到文化、艺术等广泛的主题。对于基于RAG的应用来说，把Wiki语料作为一个公有的语料库去更新大模型的知识时效，是非常有价值的，能够极大地提升模型的性能和应用范围。是一个用于从维基百科等维基媒体项目的数据库 dumps 中提取文本的工具。做文本预处理和数据清洗。文件将下载到当前目录下。

wiki中文数据语料抽取-gensim构建word2vec模型

Ljuice的博客

08-14

1992

wiki数据集获取途径：点此进入按需获取我这里为方便快捷，只下载了个10+M的数据集。目录： 1. WikiCorpus提取xml数据集语料 2. opencc繁转简 3. jieba中文分词 4. word2vec词向量转化 5. 模型测试（相似度） 1. 将xml.bz2格式的压缩包用脚本文件进行处理此处用到gensim自带的WikiCorpus工具包 from gensim.corp...

获取并处理中文维基百科语料

weixin_46087812的博客

03-24

2306

获取语料下载链接处理语料直接下载下来的维基百科语料是一个带有html和markdown标记的文本压缩包，基本不能直接使用。目前主流的开源处理工具主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。然而，这两个主流的处理方法都不能让人满意。Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形西方语言中“数学”（；）一词源自于古希腊语的（）这是因为括号里的词带有{{}}标记，被清空了；而按照网上的教程，

word2vec- -入门

qq_38096703的博客

06-11

4614

一、原理word2vec原理部分有大神已经写好的，此处给出链接方便查看：http://www.cnblogs.com/pinard/p/7160330.htmlhttps://blog.csdn.net/lyc_yongcai/article/details/73275229二、中文维基百科语料上的Word2Vec实验参考：https://www.jianshu.com/p/ec27062bd45...