Python爬虫个人梳理（代码有空写）

最新推荐文章于 2023-07-04 11:09:33 发布

转载最新推荐文章于 2023-07-04 11:09:33 发布 · 148 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/lqs-zsjky/p/6061393.html

文章标签：

#python #爬虫

本文介绍了使用Python进行网页爬取的基本方法，包括使用urlopen()读取网页内容、通过Request发送POST请求、设置请求头以模拟浏览器行为、处理常见的HTTP错误及使用handlers和openers进行更复杂的网络操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里多是摘抄的，只是用于个人理解。

1。urlopen().read()是爬取网页的内容，出来可能是一堆的源代码。和我们右击网页查看是一样的。

2。当用到http请求的时候，
我们可以使用Request将请求的地址url封装为一个请求，再用urlopen
发送数据：
有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本，或其他WEB应用程序挂接)。
在HTTP中,这个经常使用熟知的POST请求发送。
这个通常在你提交一个HTML表单时由你的浏览器来做。
并不是所有的POSTs都来源于表单，你能够使用POST提交任意的数据到你自己的程序。
一般的HTML表单，data需要编码成标准形式。然后做为data参数传到Request对象。
3报头，伪装成浏览器用User-Agent

增加报头有两个方法，一个是直接就在字典写，一个是以addheaders的形式增加http://www.jb51.net/article/51941.htm

4。异常处理
典型的错误包含"404"(页面无法找到)，"403"(请求禁止)，和"401"(带验证请求)。
5 。handlers 代理
Openers使用处理器handlers，所有的“繁重”工作由handlers处理。
每个handlers知道如何通过特定协议打开URLs，或者如何处理URL打开时的各个方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定处理器获取URLs你会想创建一个openers，例如获取一个能处理cookie的opener，或者获取一个不重定向的opener。

要创建一个 opener，可以实例化一个OpenerDirector，
然后调用.add_handler(some_handler_instance)。
同样，可以使用build_opener，这是一个更加方便的函数，用来创建opener对象，他只需要一次函数调用。
build_opener默认添加几个处理器，但提供快捷的方法来添加或更新默认处理器。
其他的处理器handlers你或许会希望处理代理，验证，和其他常用但有点特殊的情况。

install_opener 用来创建（全局）默认opener。这个表示调用urlopen将使用你安装的opener。
Opener对象有一个open方法。
该方法可以像urlopen函数那样直接用来获取urls：通常不必调用install_opener，除了为了方便。

转载于:https://www.cnblogs.com/lqs-zsjky/p/6061393.html