Python爬虫开发-02--POST请求的爬虫模型

最新推荐文章于 2025-02-23 03:26:29 发布

原创最新推荐文章于 2025-02-23 03:26:29 发布 · 393 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#POST #爬虫 #Python #HTTP

PythonPro 专栏收录该内容

13 篇文章

订阅专栏

本文对比了HTTP请求中的GET与POST方法的区别，并重点介绍了如何使用Python发送POST请求。文章还探讨了服务器如何通过检查请求头部信息来识别并阻止非浏览器来源的访问，这是常见的反爬虫手段之一。

与GET方式的区别在于：增加了请求数据。

import urllib
import urllib2
url = 'http://www.zhihu.com/signup?next=%2F'
postdata = {'username ': 'qiye', 'password': 'qiyepass'}
data = urllib.urlencode(postdata)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)

html = response.read()
print html

但是有时候会出现一种情况是：即使POST请求的数据是对的，但是服务器拒绝你的访问。

为什么？问题就出在请求的头信息中，服务器会检验请求头，来判断是否是来自浏览器的访问，这也是反爬虫的常用手段。

至于请求头Headers处理，后续我在深入学习。