Spider
he00pan
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫(四)Requests库的使用
什么是RequestsRequests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是pyth...转载 2019-01-23 21:37:11 · 477 阅读 · 0 评论 -
Python爬虫(二)爬虫原理
爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,...转载 2019-01-23 11:02:46 · 340 阅读 · 0 评论 -
Python爬虫(三)Urllib库的使用
官方文档地址:https://docs.python.org/3/library/urllib.html什么是UrllibUrllib是Python内置的HTTP请求库包括以下模块:urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块一、urll...转载 2019-01-23 17:07:19 · 205 阅读 · 0 评论
分享