Python爬虫基本代码附解析

最新推荐文章于 2025-09-26 17:45:40 发布

原创最新推荐文章于 2025-09-26 17:45:40 发布 · 1.1w 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

本文介绍了Python爬虫的基本代码，包括使用urllib2库进行HTTP的GET和POST请求。通过实例展示了如何获取网页内容，以及模拟登录网站的原理。对于GET请求，参数直接附加到URL上；对于POST请求，需要构造请求数据并进行url编码。

1、扒取网页和基本代码：

import urllib

response = urllib2.urlopen("http://www.baidu.com") print response.read()

response = urllib2.urlopen("http://www.baidu.com")

print response.read()

首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout) 第一个参数 url 即为 URL，第二个参数 data 是访问 URL 时要传送的数据，第三个 timeout 是设置超时时间。第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的，在这个例子里面我们传送了百度（也可以是任意网址）的 URL，执行 urlopen 方法之后，返回一个 response 对象，返回信息便保存在这里面，response 对象有一个 read 方法，可以返回获取到的网页内

2、Post方式

我们引入了 urllib 库，现在我们模拟登陆优快云，当然上述代码可能登陆不进去，因为优快云还有个流水号的字段，没有设置全，比较复杂在这里就不写上去了，在此只是说明登录的原理。一般的登录网站一般是这种写法。我们需要定义一个字典，名字为 values，参数我设置了 username 和 password，下面利用 urllib 的 urlencode 方法将字典编码，命名为 data，构建 request 时传入两个参数，url 和 data，运行程序，返回的便是 POST 后呈现的页面内容。注意上面字典的定义方式还有一种，下面的写法是等价的

import urllib import urllib2

values = {} values['username'] = "1016903103@qq.com"

values['password'] = "XXXX"

data = urllib.urlencode(values)

url = "http://passport.youkuaiyun.com/account/login?

from=http://my.youkuaiyun.com/my/mycsdn"

request = urllib2.Request(url,data)

response = urllib2.urlopen(request) print response.read()

3、GET方式

至于 GET 方式我们可以直接把参数写到网址上面，直接构建一个带参数的 URL 出来即可。

import urllib import urllib2

values={} values['username'] = "1016903103@qq.com"

values['password']="XXXX"

data = urllib.urlencode(values)

url = "http://passport.youkuaiyun.com/account/login"

geturl = url + "?"+data request = urllib2.Request(geturl)

response = urllib2.urlopen(request) print response.read()

你可以 print geturl，打印输出一下 url，发现其实就是原来的 url 加？然后加编码后的参数 http://passport.youkuaiyun.com/account/login?username=1016903103%40qq.com&password=XXXX

1 条评论

北风之神c 2024.11.02
总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b