基于维基百科构建平行语料库

本文指导如何使用GitHub上的wikipedia-parallel-titles工具,通过ISO 639-2码下载特定语言的维基百科语料,创建阿拉伯语与英语的平行语料库。过程包括下载、提取和特定语言的过滤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文辅助有需求人士建立平行语料库。

工具GitHub链接https://github.com/clab/wikipedia-parallel-titles

第一步:从” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码

第二步:假设我要做的是阿拉伯-英语平行语料库,阿拉伯语的639-1码为ar,英文的为en
到http://dumps.wikimedia.org/arwiki下载阿拉伯语的语料文件
在这里插入图片描述
进入到latest,下载后缀名是 -page.sql.gz-langlinks.sql.gz的文件,提倡挂VPN下载会比较快
在这里插入图片描述
第三步:工具GitHub链接https://github.com/clab/wikipedia-parallel-titles,下载该包,解压之后,在其目录下可看到以下文件
在这里插入图片描述
第四步:提取并行语料库,CMD访问该目录,命令为: ./build-corpus.sh en arwiki-latest > titles.txt

PS:特定于语言的过滤
如果该对中的一种语言使用特定的Unicode范围,则可以轻松过滤掉不包含此类字符的行。filters/目录中包含一些脚本的示例过滤器。

例如,以下内容将筛选出不包含至少一个Perso-Arabic字符的对:

./build-corpus.sh en arwiki-20140831 | ./filters/filter-perso-arabic.pl > titles.txt

最后,如果titles.txt是空的,将scripts中的extract.pl和utf8-normalize.sh文件用记事本打开
将所有的iconv -f utf8 -t utf8 -c 换成 iconv -f utf-8 -t utf-8 -c 即可。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值