
爬虫学习
Zocrates
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫学习1——requests库的使用
requests库介绍 首先爬虫需要一个强大的第三方库,requests库,方便爬取信息。 需要了解的一点是,requests适用于爬取网页,规模和数据量都较小的情况下;如果要爬取大规模的数据(如很多网站的所有内容),scrapy库是更好的选择。 requests库包含方法 requests库包含以下主要使用的方法: import requests r1 = requests.get...原创 2019-05-17 15:57:54 · 616 阅读 · 0 评论 -
python爬虫学习2——robots协议
robots协议 robots协议是由网站设计者制定的,其目的是为告知爬虫哪些页面可以抓取,哪些不行。 可以将robots协议看作一个网站拥有者的公告栏,他告知爬虫们要遵守的爬取规则,但没有起到限制作用(爬虫可以不遵守这些规则)。 robots协议存储在网站根目录下的robots.txt文件内 我们以淘宝的robots协议为例看一下协议里都有哪些内容 访问https://www.taob...原创 2019-05-17 15:57:45 · 403 阅读 · 0 评论