1.前言
要按看懂本文内容,首先需要对python的语法以及爬虫的概念有所了解,如果想学习前者,可以看看廖雪峰的python教程;如果先学习后者则可以看看慕课网上的python开发简易爬虫,视频不长但内容清晰明了,本文的代码就是基于此改编(视频中用的是python2),并加上了一些注释。
#python版本:python3
#依赖的库:beautifulsoup4
#代码下载:https://github.com/lqsherlock/SimpleSpider
#编辑环境:eclipse
2.实现的功能

本文介绍了如何使用Python3和BeautifulSoup4库编写一个简单的爬虫,爬取百度百科中'python'词条的指定数量链接。文章详细讲解了SpiderMain、UrlManager、HtmlDownloader、HtmlParser和HtmlOutputer五个关键类的功能和实现,适合对Python语法和爬虫有一定了解的读者。
最低0.47元/天 解锁文章
1371

被折叠的 条评论
为什么被折叠?



