一. API
-
定义
API(Application Programming Interface,应用程序接口)是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。 目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。 -
使用方法
API用一套非常标准的规则生成数据,而且生成的数据也是按照非常标准的方式组织的。 因为规则很标准,所以一些简单,基本的规则容易学,可以迅速掌握API 的用法。但不是所有的API使用都简单。有些API的规则 很多,并且很复杂,因此在使用之前可以查看API的相关帮助文档信息 -
API的验证
1)有一些简单的是不需要验证操作的。是免费的API
2) 大部分的API 都是需要用户提交验证的。提交验证的目的主要是为了计算API调用的费用,这是常见的付费API 。eg:图灵的聊天机器人
二. 项目案例 —— 拉钩网数据采集
(一)需求分析
通过数据采集,得到拉钩网中发布的职业职位的需求分析
(二)数据解析及实验结果
- 首先分析网站的详情页面(此时关键字采用python)在真实的请求网址中,网页会给我们返回的是一个JSON串,需要解析这个JSON串就可以得到页面的信息。 通过改变Form Data 中的pn 的值来控制翻页
- 从页面的详情页中,我们要得到“ 职位名称 ”“ 职位描述”,” 任职要求 “等信息
1)首先我们请求头信息
我们需要构造的请求头Headers信息,这里如果没有构建好的话,容易被网站识别成爬虫,从而拒绝我们的请求
2) 表单信息
发送POST 请求时需要包含的表单信息(Form Data) , 需要解析出访问的页数码,还有搜索的关键字
3) 返回JSON数据
我们可以通过网页发现,我们所需要的信息在ocntent ——> positionResult——> result里面,其中包含了工作地点,职位信息,公司名称等。这些正是我们所需要的数据。

相关代码:
配置文件中:(该文件的作用是:之后的想要爬取别的类别,或者

本文介绍如何使用API采集拉勾网的职位信息,包括需求分析、数据解析及实验结果展示,通过Python代码实现职位数据的抓取、解析与存储。
最低0.47元/天 解锁文章
262

被折叠的 条评论
为什么被折叠?



