本文是在你已经安装了Python的前提下进行的
1、数据下载
在网站https://dumps.wikimedia.org/zhwiki/latest/中对自己所需要的数据进行下载,我下载的是zhwiki-latest-pages-articles.xml.bz2
这里简单了解一下这几个文件(在网上都能找到的)
2、转换为json
为什么要转换为json呢?
json在xml的基础上,去掉了标签,节省了大量的存储空间,格式比较简单, 易于读写, 格式都是压缩的, 占用带宽小。这对我们把数据读入数据库很有帮助。
(1)首先需要用 Gensim 这个工具包进行数据预处理。
进入cmd窗口第一步先更新一下pip。命令: python -m pip install --upgrade pip
第二步,安装Gensim工具包命令: pip install --upgrade gensim
维基百科数据xml格式转换为json格式
最新推荐文章于 2025-03-19 10:49:31 发布