一个单线程爬取英文维基百科正文与链接关系的Python爬虫
正文如题。
代码参数详见代码(点击下载),运行结果为两个TXT文件,分别记录正文以及网页关系,文件保存格式详见同代码目录文本文件(文本为爬取深度为1的结果)。
介绍了一个使用Python实现的单线程爬虫,该爬虫用于抓取英文维基百科的文章正文及其链接关系。爬取结果分别保存为两个TXT文件,一个记录文章正文,另一个记录页面间的链接关系。
正文如题。
代码参数详见代码(点击下载),运行结果为两个TXT文件,分别记录正文以及网页关系,文件保存格式详见同代码目录文本文件(文本为爬取深度为1的结果)。
995

被折叠的 条评论
为什么被折叠?