架设Wikipedia的本地镜像

最新推荐文章于 2025-09-12 04:33:48 发布

原创最新推荐文章于 2025-09-12 04:33:48 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#MySQL #PHP #Debian #SVN #Vmware

基础专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了如何在Debian操作系统上构建Wikipedia的本地镜像。首先，你需要安装MySQL数据库来存储数据，然后使用PHP作为服务器端脚本语言。接下来，将通过SVN获取Wikipedia的最新内容，并在Vmware虚拟环境中进行部署和测试。这个过程对于离线研究或减少网络依赖非常有用。

部署运行你感兴趣的模型镜像

本文试图总结架设Wikipedia镜像的过程。

准备工作

首先需要安装Mediawiki软件，以及Mediawiki所依赖的软件，Apache，Php5，Mysql等，这里就不详细讲解了。对于懒人，有两个选择：

第一是安装Debian[1]，这样apt-get install mediawiki就可以完成软件的安装。

第二是下载VMWare Player[2]和一个预安装Mediawiki的虚拟机[3]。

其次需要安装Java[4]，因为导入数据的工具[5]是用Java实现的。

然后是硬盘，如果是英文wikipedia[6]，需要准备大概10G的空间，如果是中文[7]，需要1G左右的空间。注意Mysql数据库文件(典型的安装会使用/var/lib/mysql这个目录)所在的分区应具有足够的空闲空间。

最后，也是最重要的是，想办法下载wikipedia的数据文件，由于数据文件的网站[8]，和导入数据文件的工具及其使用说明[9]都被封锁，这个就得自己想办法，各显神通了。由于数据文件很多，记得我们需要的文件名字看起来像是：

enwiki-20061130-pages-articles.xml.bz2 [10]，或zhwiki-20061130-pages-articles.xml.bz2 [11]

另外，在制作镜像的过程中，需要对Apache的配置[12]、Mysql的管理[13]和Php[14]有一个简单的了解。

假设我们想要镜像英文Wikipedia，那么准备工作完成之后，我们有一个安装好了Mediawiki，以及下面两个文件：

数据文件：enwiki-20061130-pages-articles.xml.bz2

导入工具：mwdumper.jar [5]

初始化Wikipedia

安装Mediawiki软件后，需要完成初始化配置。建立镜像的初始化的过程和安装一个新的Wikipedia没有什么不同。我们假设初始化使用以下的参数：

Mediawiki的URL：http://localhost/mediawiki

Mediawiki的安装目录：/var/www/mediawiki

Mediawkik的配置文件位于/var/www/mediawiki/LocalSettings.php

Mysql数据库为wikidb，用户wikiuser，密码123456

清空数据库

初始化过程不但建立了Wikipedia所需要的数据库Table，而且还加入了一些初始记录。为了导入Wikipedia的镜像数据，我们需要首先清空数据库的部分表格。

下面的内容基本参考自某人的镜像过程[15]：

$ mysql -p wikidb
Password: ******
mysql> delete from page;
mysql> delete from revision;
mysql> delete from text;

配置mysql

数据倒入过程会使用很长的SQL语句，以及生成大量数据库的Undo记录。所以需要事先对mysql数据库进行配置。先编辑/etc/mysql/my.cnf，在合适位置加上下面内容：

[mysqld]
max_allowed_packet = 128M
innodb_log_file_size = 100M

[mysql]
max_allowed_packet = 128M

重启动mysql

# /etc/init.d/mysql restart

导入数据

用下面的命令倒入数据，大概需要1天的时间才能全部导入完毕。导入完毕之后，这个Wikipedia镜像就可以使用了。

java -Xmx600M -server -jar mwdumper.jar --format=sql:1.5 
  enwiki-20061130-pages-articles.xml.bz2 
| mysql -u wikiuser -p wikidb

可选：清空Undo日志

导入过程不但会生成10G的数据库文件，也会生成大约10G的Undo log，检查你的Mysql数据库的日志目录(典型的值是/var/log/mysql)，及该目录所在的分区，注意不要把分区写满。导入过程中，我们如果发现即将写满分区，可以用Mysql的管理命令清空Undo日志(需要用mysql超级帐号登入)。

$ mysql -u root reset master;

可选：修复数据

导入过程中可能会有一些数据表出错，包括pagelinks，templatelinks，page表，我们可以在导入数据完成后，用mysql的修复命令：

$ mysql -p wikidb mysql> repair table pagelinks extended; mysql> repair table page extended; mysql> repair table templatelinks extended;

修复过程可能会很慢，耐心等待。

安装扩展项

此时，虽然可以访问Wikipedia，但很多页面的部分内容不能正常显示，这是因为Wikipedia依赖很多mediawiki的扩展项才能够正常工作，而这些扩展项默认不会安装。Wikipedia所需的全部扩展项详见官方文档[16]。

首先检查是否安装Subversion，然后需要突破封锁下载到mediawiki extensions。

$ svn co -r REVISION \ http://svn.wikimedia.org/svnroot/mediawiki/trunk/extensions \ ~/extensions

其中REVISION是你所安装的Mediawiki软件对应的版本号，如果是mediawiki1.7，则将REVISION替换为15387，如果是其他版本的mediawiki，自己查。

虽然官方的Wikipedia使用很多扩展，但如果只想完成Wikipedia镜像，我们只需要关心少数几个扩展。下面的命令把这些extension安装到/var/www/mediawiki目录里。

$ cd ~/extensions
$ mkdir /var/www/mediawiki/extensions/ParserFunctions
$ cd ParserFunctions
$ cp Expr.php ParserFunctions.php 
    /var/www/extensions/ParserFunctions
$ cd ..
$ cd Cite
$ cp Cite.php Cite.i18n.php 
    /var/www/mediawiki/extensions/
$ cd ..
$ cp -a CategoryTree/ /var/www/mediawiki/extensions/
$ cp -a wikihiero /var/www/mediawiki/extensions/
$ find -name .svn | xargs rm

然后编辑配置文件/var/www/mediawiki/LocalSettings.php，追加以下内容：

require_once("$IP/extensions/ParserFunctions
/ParserFunctions.php");
$wgUseTidy=true;
require_once("$IP/extensions/Cite.php");
$wgUseAjax = true;
require_once("$IP/extensions/CategoryTree
/CategoryTree.php");
require_once("$IP/extensions/wikihiero/wikihiero.php");

这时应该可以正常显示大部分的Wikipedia页面了。