API及项目案例——拉钩网的数据采集

本文介绍如何使用API采集拉勾网的职位信息,包括需求分析、数据解析及实验结果展示,通过Python代码实现职位数据的抓取、解析与存储。

一. API

  1. 定义
    API(Application Programming Interface,应用程序接口)是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。 目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。

  2. 使用方法
    API用一套非常标准的规则生成数据,而且生成的数据也是按照非常标准的方式组织的。 因为规则很标准,所以一些简单,基本的规则容易学,可以迅速掌握API 的用法。但不是所有的API使用都简单。有些API的规则 很多,并且很复杂,因此在使用之前可以查看API的相关帮助文档信息

  3. API的验证
    1)有一些简单的是不需要验证操作的。是免费的API
    2) 大部分的API 都是需要用户提交验证的。提交验证的目的主要是为了计算API调用的费用,这是常见的付费API 。eg:图灵的聊天机器人

二. 项目案例 —— 拉钩网数据采集

(一)需求分析

通过数据采集,得到拉钩网中发布的职业职位的需求分析

(二)数据解析及实验结果

  1. 首先分析网站的详情页面(此时关键字采用python)在真实的请求网址中,网页会给我们返回的是一个JSON串,需要解析这个JSON串就可以得到页面的信息。 通过改变Form Data 中的pn 的值来控制翻页
  2. 从页面的详情页中,我们要得到“ 职位名称 ”“ 职位描述”,” 任职要求 “等信息
    1)首先我们请求头信息
    我们需要构造的请求头Headers信息,这里如果没有构建好的话,容易被网站识别成爬虫,从而拒绝我们的请求在这里插入图片描述
    2) 表单信息
    发送POST 请求时需要包含的表单信息(Form Data) , 需要解析出访问的页数码,还有搜索的关键字
    3) 返回JSON数据
    我们可以通过网页发现,我们所需要的信息在ocntent ——> positionResult——> result里面,其中包含了工作地点,职位信息,公司名称等。这些正是我们所需要的数据。
    在这里插入图片描述

相关代码:
配置文件中:(该文件的作用是:之后的想要爬取别的类别,或者

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值