scrapy爬取——阿里招聘信息

本文档介绍了如何使用scrapy框架爬取阿里巴巴的招聘信息。首先创建scrapy项目,然后设置爬虫伪装,定制爬取策略,包括分析总页数和记录数。接着通过提交请求获取数据,由于限制每次最多500条,需循环爬取26次。最后,通过定义item和设置pipelines来存储爬取的数据。

scrapy爬取——阿里招聘信息

爬取网站地址:

https://job.alibaba.com/zhaopin/positionList.htm

1.创建项目

进入项目目录
在这里插入图片描述

输入cmd进入都是窗口创建项目,默认普通爬虫框架请添加图片描述
分析页面找到network中的数据出口
请添加图片描述

2.爬虫伪装

爬虫规则(concurrent)改为False,将network中的user_agent(浏览器伪装)填写网页中的user_agent
请添加图片描述

3.定制爬取策略

从信息页面可以看出总页数和总记录条数,在提取信息的的页面可直接查询全部记录数。
请添加图片描述

查看需要提交的表单
请添加图片描述

查询全部记录
请添加图片描述

4.提交请求并获取数据。

查询最高限制仅有500条,总页面为26,做个简单循环爬取信息。
请添加图片描述
请添加图片描述

导入json库,将网页的json数据转换。(转换完成后可用字典形式提取指定数据)
请添加图片描述
请添加图片描述

简单提取几个指定数据也可以提取全部数据。(一次获取500数据,迭代数据)
请添加图片描述

5.数据存储+完整代码

item定义容器存储(定义一个,数据边写边存速度较慢)
item需要导入from items import AliItem
请添加图片描述

开启存储通道

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值