Python3爬虫1-请求库

获取网页源代码是爬虫的第一步,在Python中最常用的就是urllib和request两个库了。

urllib库介绍

先说一下python版本变化前后的区别,这个曾给我带来不小的麻烦。

  • 在Python2中,有内置的urllib、urllib2两个库,urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理。
  • 而在Python3中,已经不存在urllib2这个库了,统一为urllib。urllib作为Python3的标准库,基本上涵盖了基础的网络请求功能。它包含如下四个模块:
    1. request:它是最基本的HTTP请求模块用来模拟发送请求;
    2. error:异常处理模块,用来捕获异常自定义处理方式,保证程序不会意外终止;
    3. parse:提供URL的处理方式,如拆分、解析、合并等;
    4. robotparser:用于处理网站的robots.txt文件,规范爬虫。
  • 另外有一个扩展的urllib3,在urllib上增加了连接池等功能,两者互相都有补充的部分。urllib3是服务于升级的http 1.1标准,拥有高效 http连接池管理及 http 代理服务的功能库,从 urllib 到 urllib2和urllib3是顺应互联应用升级浪潮的,这股浪潮从通用的网络连接服务到互联网网络的头部应用:支持长连接的 http 访问,网络访问不断的便捷化。

使用Python3的urllib库

参考简书Python网络请求urllib和urllib3详解

requests库介绍

urllib库很全,但也有很多不方便之处。为了更加方便的实现请求头构造、Cookies等功能,Python中有更强大的request库。

使用request库

还是参考简书【Requests】优雅到骨子里的网络请求库,因为他写得真的很好。

源代码有了,但需要正确的解析过滤才能称得上数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值