5.用Request爬取拉勾网职位信息--爬虫

最新推荐文章于 2021-11-22 22:01:03 发布

翻译最新推荐文章于 2021-11-22 22:01:03 发布 · 411 阅读

个人学习同时被 2 个专栏收录

24 篇文章

订阅专栏

爬虫预备知识

6 篇文章

订阅专栏

本文介绍如何使用Python的urllib.request.Request类增强网络请求，包括设置User-Agent和Referer等头部信息，以及POST数据的编码和发送，通过实例演示爬取百度和拉钩网数据的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

request.Request类：
如果想要在请求时增加一些请求头，那么就必须使用request.Request类来实现。比如要增加一个User-Agent，示例代码如下：

from urllib import request
headers = {
           'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
req = request.Request("http://www.baidu.com/",headers=headers)
resp = request.urlopen(req)
print(resp.read())

eg.爬取拉钩网上的信息，拉钩网这个网站具有反爬虫机制

from urllib import request,parse
url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='   //可以发现如果不自己构造headers将爬取不到网站的有用数据，下面来构造请求头。
headers = {
           'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
           'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='
}    //发现仅仅构造请求头还是不够的，还需要增加referer

data = {
        'first': ture,
        'pn': v1,
        'kd': 'python'
}

req = request.Request(url,headers=headers,data=parse.urlencode(data).encode('utf-8'),method='POST')
resp = request.urlopen(req)
print(resp.read().decode('utf-8'))

需要再对data进行深入理解。