下载wiki百科的数据
那么我是从https://dumps.wikimedia.org/zhwiki/20170520/上下载的1.4G的这个xml版本
抽取数据的内容
使用https://github.com/attardi/wikiextractor这个工具来从解压后的文件中抽取内容。
繁体转简体
抽取的数据中有很多是繁体,参考http://licstar.net/archives/262,使用opencc项目
安装opencc
从https://launchpad.net/ubuntu/artful/amd64/opencc/1.0.4-5下载opencc的deb包,双击安装
使用方式,在terminal中输入:
opencc -i input_file