Python3爬虫1-请求库

最新推荐文章于 2023-08-31 18:36:43 发布

原创最新推荐文章于 2023-08-31 18:36:43 发布 · 396 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

软件专栏收录该内容

10 篇文章

订阅专栏

本文介绍了Python爬虫的基础知识，包括urllib和requests库的使用，以及如何获取和解析网页源代码。详细解释了Python2与Python3中urllib库的变化，并对比了urllib与requests库的特点。

获取网页源代码是爬虫的第一步，在Python中最常用的就是urllib和request两个库了。

urllib库介绍

先说一下python版本变化前后的区别，这个曾给我带来不小的麻烦。

在Python2中，有内置的urllib、urllib2两个库，urllib 侧重于 url 基本的请求构造，urllib2侧重于 http 协议请求的处理。
而在Python3中，已经不存在urllib2这个库了，统一为urllib。urllib作为Python3的标准库，基本上涵盖了基础的网络请求功能。它包含如下四个模块：
1. request：它是最基本的HTTP请求模块用来模拟发送请求；
2. error：异常处理模块，用来捕获异常自定义处理方式，保证程序不会意外终止；
3. parse：提供URL的处理方式，如拆分、解析、合并等；
4. robotparser：用于处理网站的robots.txt文件，规范爬虫。
另外有一个扩展的urllib3，在urllib上增加了连接池等功能，两者互相都有补充的部分。urllib3是服务于升级的http 1.1标准，拥有高效 http连接池管理及 http 代理服务的功能库，从 urllib 到 urllib2和urllib3是顺应互联应用升级浪潮的，这股浪潮从通用的网络连接服务到互联网网络的头部应用：支持长连接的 http 访问，网络访问不断的便捷化。

使用Python3的urllib库

参考简书Python网络请求urllib和urllib3详解

requests库介绍

urllib库很全，但也有很多不方便之处。为了更加方便的实现请求头构造、Cookies等功能，Python中有更强大的request库。

使用request库

还是参考简书【Requests】优雅到骨子里的网络请求库，因为他写得真的很好。

源代码有了，但需要正确的解析过滤才能称得上数据。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。