拉勾网的职位信息爬取（详细）

最新推荐文章于 2020-10-26 11:19:58 发布

原创

最新推荐文章于 2020-10-26 11:19:58 发布 · 2.2k 阅读

5 ·

CC 4.0 BY-SA版权

本文介绍了如何详细爬取拉勾网的职位信息。首先分析页面发现换页是通过ajax的POST请求完成，接着获取请求地址并构造请求参数。通过对响应内容的JSON结构分析，确定了需要提取的字段。接着编写爬虫代码，成功抓取到数据，并将JSON数据转换为CSV格式保存，便于后续处理。

1.进入拉钩网，（调到注册页可删掉url详情后缀直接登陆主页）

2.选定一个城市一种职位，分析一下页面，发现点击第一页第二页换页时url地址栏并未发生变化，可以判断是ajax发送的请求，且显示是post请求

拿到实际的请求地址，并构造查询字符串和请求体内容

https://www.lagou.com/jobs/positionAjax.json?gj=3%E5%B9%B4%E5%8F%8A%E4%BB%A5%E4%B8%8B&px=default&city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false

first: true
pn: 1  # 页码
kd: 深圳python  #自己所输入的查询关键字

3.看了下页面，每页是15个招聘信息，将响应的Response内容粘贴到json解析器里查看了json的结构，确定要提取的内容

4.提取的内容：

result_list = jsonpath(json_obj, "$..result")[0]  # 要加[0]取到数据列表
"""jsonpath取到的任何数据它都会自己在外面加

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

唐阿彪

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫笔记——拉勾网职位信息爬取（selenium方法）

wang_zuel的博客

07-18

2214

拉勾网爬虫笔记——selenium 拉勾的爬虫

拉勾网职位数据爬取

dta0502的博客

08-26

2237

拉勾网反爬虫做的比较严，请求头多添加几个参数才能不被网站识别。我们找到真正的请求网址，发现返回的是一个JSON串，解析这个JSON串即可，而且注意是POST传值，通过改变Form Data中pn的值来控制翻页。需要的一些知识点 AJAX：Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）。它不是新的编程语言，而是一种使用现有...

参与评论您还未登录，请先登录后发表或查看评论

Python爬取拉钩网职位信息

10-20

使用requests和beautifulsoup4库来爬取拉勾网的职位信息，突破反爬机制，获取到真正需要的数据。记得先申请一个自己的账号，再进行代码操作。

对拉勾网职位信息的爬取（python）

进入python的世界-killeri

05-20

425

通过发送post请求，对拉勾网的职位信息进行提取，很好的一个联系项目知识要求：request库发送post请求，csv库的使用，常用的反爬虫，对网页数据的解析等目地：爬取拉勾网上python相关职位的信息随便放一张图，输入python后，会跳出来职位，每页十五个职位，一共有三十页，那我们爬取的就是这三十页的所有职位信息。首先，我们打开fiddler，找出职位信息在哪个文件，每...

Scrapy爬取拉勾网职位信息

charming的专栏

06-09

3291

很多网站都用了一种叫做Ajax（异步加载）的技术，通常我们会发现这种网页，打开了，先给你看上面一部分东西，然后剩下的东西再慢慢加载，也就是局部加载。所以你可以看到很多网页，浏览器中的网址没变，但是数据照样是可以更新的。这对我们正确爬取数据造成了一定影响，我们必须要分析出正确的要抓取的地址才能成功爬取信息。今天要爬取就的就是这种网站，目标网址是：https://www.lagou.com/zhaopi

Selenium爬取拉勾网职位信息

Moon And pennys

04-25

802

你的月亮我的心

爬取拉勾网的职位信息

lxyh0000的博客

11-16

466

项目流程（1）分析职位页面的请求方式与请求数据 1.随便搜索一个职位进入职位界面，然后点击下一页，发现浏览器顶部的网址并未发生变化，因此分析请求方式应该是ajax的发起的post请求 2.点击右键打开浏览器的检查元素，选择network，再点击下面的XHR，此时再次点击下一页，发现出现一个ajax请求，点击进去会出现请求头，响应数据，查询字符串参数与请求数据，根据这些数据可知确实是ajax的po...

基于Python的拉勾网职位信息爬取与能力要求分析设计源码

10-04

基于Python的拉勾网职位信息爬取与能力要求分析系统正是在这样的背景下应运而生。该系统的设计与实现，不仅为数据分析和网络爬虫爱好者提供了实操案例，也为人力资源相关领域的研究者提供了宝贵的数据资源。系统...

Python-Crawler-一个持续更新的Python爬虫与数据分析小项目集合-包含新浪微博超话用户信息爬取与分析-拉勾网职位数据爬取与可视化-饿了么外卖商铺信息爬取与初步分析-.zip

最新发布

10-23

除此之外，集合还收录了对拉勾网职位数据进行爬取和数据可视化的项目，该项目允许用户对行业职位信息进行深度挖掘和趋势分析。最后，还包含了一个饿了么外卖商铺信息的爬虫项目，该项目可用于分析外卖市场的商铺分布...

Python_Crawler_一个持续更新的Python爬虫与数据分析小项目集合_包含新浪微博超话用户信息爬取与分析_拉勾网职位数据爬取与可视化_饿了么外卖商铺信息爬取与初步分析_.zip

08-28

而对拉勾网的职位数据进行爬取与可视化，可以让求职者和招聘方更加清晰地了解当前市场的职位需求和薪资情况，从而做出更有针对性的决策。饿了么作为一个外卖服务平台，其商铺信息对于市场分析和消费行为研究也具有...

利用Python爬取拉勾网的数据.rar

06-26

python爬虫实战，爬取拉勾网全站职位（CrawlSpider），思路如下： 1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多，要变的就是那一串数字，编写正则表达式匹配就好。 2.除了首页还有其他地方也能找到这样的url，所以我先匹配职位分类的url 例如：https://www.lagou.com/zhaopin/Java/，在抓取最终的url。 3.scrapy会自动去重。

第一个Python爬虫（小白）——爬取拉勾网的python职位信息

weixin_45127640的博客

05-10

467

第一个Python爬虫（小白）——爬取拉勾网的python职位信息先上代码，我们再来逐一分析： import requests from fake_useragent import UserAgent headers = { 'Referer': 'https://www.lagou.com/jobs/list_python/p-city_0?px=default', 'Content-Type': "application/x-www-form-urlencoded; charset=

多进程、多线程爬取拉勾网的职位信息和工作内容

mr_xinL的博客

05-12

522

import requests import json import re from bs4 import BeautifulSoup import time import csv import bs4 from multiprocessing import Pool import threading head={"user-agent": "Mozilla/5.0", "referer": "https://www.lagou.com/jobs/list_python?labelWords=

(python爬虫)拉勾网招聘信息爬取

weixin_45066966的博客

08-11

4678

拉勾网招聘岗位爬虫项目本次爬取数据为python岗位信息，并非用于商业渠道的，只是新手上路练练手，代码如有问题，请多多指教，谢谢。项目介绍：爬取网站:拉勾网 URL:https://www.lagou.com/ 爬取关键词:python 技术路线:selenium+bs4+time+re+xlwt 爬取时间：2020.08.11 作者：YRH 1.导入库 from selenium import webdriver from bs4 import BeautifulSoup import time i

简单python爬虫爬取拉勾网职位信息

抬山的博客

09-09

1742

写在前面：这里要感谢网易云课堂丘祐玮老师，本篇博文内容都是基于老师所讲内容而写，想要学习python学习爬虫的可以去看老师的课程今天要分享的是使用python爬取拉勾网职位信息，这里只爬取python职位信息用做爬虫效果展示，想要深入的同学再看完本篇博文后可以继续研究如下图，搜索python，按之前经验页面python职位信息是访问https://www.lagou.com/job...

实战一：爬取拉勾网职位信息

destiny_balabala的博客

07-04

3888

针对于https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=，进行爬虫操作。 1. 使用urlopen函数 from urllib import request url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=' resp = request.urlopen(ur

python爬取拉勾网的职位信息

weixin_45075241的博客

05-19

1110

爬取的网址为 https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput= 使用pycharm+anaconda 使用到的库：requests+time+json+pandas 网页分析：当我们进入拉勾网，输入python搜索，查看源码时，发现居然没有这些职位的信息，而且翻页的时候发现网址...

爬虫实战(三) 用Python爬取拉勾网

半虹小站

06-09

3443

最近博主面临着选方向的困难（唉，选择困难症患者＞﹏＜），所以希望了解一下目前不同岗位的就业前景这时，就不妨写个小爬虫，爬取一下拉勾网的职位数据，并用图形化的方法展示出来，一目了然

拉勾网职位爬取--初窥反爬

weixin_44123346的博客

10-26

357

常见的反爬虫策略汇总对请求头进行检查 User-Agent识别解决方法：构造一个User-Agent列表，每次向headers中随机注入一个User-Agent agent = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (Windows; U; Windo