拉勾网数据爬取

本文介绍了如何爬取拉勾网北京地区的数据挖掘岗位信息。通过分析移动端API,利用Python进行数据抓取,简化了抓取过程。文章提供脚本及源码,便于读者学习和实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

拉勾网数据爬取

爬取内容

北京数据挖掘方向的岗位数据

方案

正常的

https://www.lagou.com/jobs/list_数据挖掘?px=new&city=上海#order

上面的URL是查询上海数据挖掘岗位的信息并按照最新发布排序

通过抓包分析请求的真正URL是这个

https://www.lagou.com/jobs/positionAjax.json?px=new&city=上海&needAddtionalResult=false&isSchoolJob=0


提交的数据如下

返回的数据的格式如下
这里写图片描述

太麻烦了使用移动端ua (很赞)
移动端的api往往比pc端的简单

使用360极速浏览器的魔变


输入网址查看移动端的拉勾网界面,设置查询条件如下

然后用F12抓包分析真正的URL

发送数据的表单

获得数据格式

成果展示

脚本

"""
title:抓取拉勾网的数据
time:2018-01-22
author:No.96
"""
import requests
import time
import random
import csv

# 移动端头部信息
useragents = [
    "Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1 (KHTML, like Gecko) CriOS/47.0.2526.70 Mobile/13C71 Safari/601.1.46",
    "Mozilla/5.0 (Linux; U; Android 4.4.4; Nexus 5 Build/KTU84P) AppleWebkit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0)"
]
cookies 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值