利用scrapy批量下载个人简历

最新推荐文章于 2024-04-30 13:46:50 发布

「已注销」

最新推荐文章于 2024-04-30 13:46:50 发布

阅读量791

点赞数

分类专栏： python爬虫技术杂谈文章标签： xpath chrome scrapy scrapy批量下载简历 python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43581288/article/details/106897213

版权

1、前言

写这个程序和博客的原因，纯粹是出于无聊。上课老师不准我们带耳机，所以就看不了视频，学不了新知识。

所以，正想着马上毕业了，正好也需要个人简历来参加面试，我呢，又不想自己去下载，就只有写个程序来搞他了。

2、前景准备

2.1、工具

pycharm2020.1.1

python3.7

chrome

2.2、用到的工具库

scrapy，requests，os

2.3、实现思路

既然是批量下载，那么就需要每个网页的所有简历的url，我们就可以使用scrapy的yield推送网址解析。

3、步骤实现

3.1、分析网页源码

首先我们打开我们需要爬的网址：个人简历网

当然，这个网址里面的简历模板都是免费的。

然后，熟悉的打开我们的审查工具。瞅瞅我们需要的网址。我这儿用到的工具还有个xpath helper。能够在网页上运行xpath的工具。当然你们也可以不用下载，可以直接手写。

在这里插入图片描述

可以很清楚的看到，我们所有的列表都在这里面。

所以我们写xpath语法的时候就只需要获取ul下的li标签就行。

但是，我们是爬取全部的网页。所以就需要分析下一页。我们再审查一下元素

在这里插入图片描述
我们要是想要跳转下一页，也就是说需要去访问这个href标签的元素就能跳转到下一页了。

所以，开始敲代码。

3.2、源码分析

我们说过，要下载每一个简历，也就是需要去访问这个简历的网址。我们随便打开一个简历看看里面的构造。
在这里插入图片描述

我们可以很清楚的看到，这个下载按钮绑定的是一个href超链接，并且超链接里面的后缀是docx结尾的。

换句话说，我们直接去点击超链接就能直接下载下来。

3.3、代码实现

首先还是新建一个scrapy项目

scrapy startproject grjl
cd grjl
scrapy genspider gerenmuban http://www.gerenjianli.com/moban/

然后开始我们的代码

写之前还是要先配置一下settings.py


BOT_NAME = 'grjl'
SPIDER_MODULES = ['grjl.spiders']
NEWSPIDER_MODULE =

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

「已注销」 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。