python爬虫拉勾网职位信息

最新推荐文章于 2020-12-09 14:35:28 发布

愤怒的小寒

最新推荐文章于 2020-12-09 14:35:28 发布

阅读量671

点赞数 5

CC 4.0 BY-SA版权

分类专栏： python爬虫文章标签： python爬虫拉勾网职位爬取

本文链接：https://blog.youkuaiyun.com/qq_36953558/article/details/88737664

python爬虫专栏收录该内容

1 篇文章

订阅专栏

本文讲述了如何在拉勾网反爬策略增强的背景下，通过分析接口、使用Chrome抓包工具，以及利用requests.Session()处理cookie，成功爬取Python职位信息的过程。强调了在爬取过程中需要注意的反爬策略，如设置延时和正确处理cookie，以及如何获取职位详情页的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习爬虫时看的是几年前的教程，那个教程是举的一个例子就是爬取拉勾网的职位信息，但是由于这几年的反爬技术提高，拉勾网已经不能按照以前那么简单的爬了，研究了一下，终于可以爬到拉钩网的数据了。

首先我们打开拉勾网的网页 https://www.lagou.com/ 然后搜索python

打开chrome的抓包工具 f5刷新下网页，可以看到第一个就是返回的html 但是里面却没有职位的信息。

原来拉勾网的职位信息是通过ajax动态加载的我们在抓包工具里找到ajax的包，根据名字我们可以很容易的找到那个包

我们找到了那个包开始分析接口

那么我们开始写代码

import requests


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'Referer': 'https://www.lagou.com/jobs/list_php?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',
}

data = {'first': True,
        'kd': 'python',
        'pn': 1}
response = requests.post(
        'https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false',  # ajax接口地址
        headers=headers,
        data=data)

p = response.json()
print(p)

我们把这个接口进行post请求时发现并不能返回有效的信息，而是提示

{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"42.185.150.216","state":2402}

但是我们只访问了一次不可能操作太频繁，这一定是被反爬检测到了。

后来我加上了cookie 也不行，经过了很长时间的测试，终于让我找到了如何爬取。

原来是访问这个接口之前一定要获取到请求原网页的cookie 然后带着这个cookie来访问接口

于是我使用了request.Session() 会话，先get访问一回原网页，再post接口，果不其然，爬到了真正的职位信息

如何查询下一页的信息呢在data中可以看到pn=1 翻到第二页时 pn=2 所以只需要把pn递增就好了

拉勾网每次都要重新获得一次原网页给的cookie 所以我们循环每次都要去get一次原网页，还有每爬一页都要暂停5s以上我第一次就没写time.sleep() 结果ip被封了只能用代理然后加了睡眠可以爬取下来全站的职位信息。

所有代码如下：

import requests
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'Referer': 'https://www.lagou.com/jobs/list_php?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',
}

data = {'first': True,
        'kd': 'python',
        'pn': 1}
proxies = {
  'HTTPS':'117.90.7.156:9999'
}
for i in range(1, 20):
    data['pn'] = i
    session = requests.Session()
    session.get(
        'https://www.lagou.com/jobs/list_python?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput=',
        # 请求原网页以便获得cookie
        headers=headers,proxies=proxies)

    response = session.post(
        'https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false',  # ajax接口地址
        headers=headers,
        data=data,
        proxies=proxies)

    p = response.json()
    print(p)
    position_list = p["content"]["positionResult"]["result"]
    for position in position_list:
        print(position["positionId"], position["companyShortName"], position["positionName"], position["workYear"],
              position["education"],
              position["salary"])
    session.close()
    time.sleep(10)

爬取结果如下：