scrapy框架-新智联招聘爬取数据（仅供学习参考），熟知-jsonpath的应用

置顶

李杨Python

于 2018-07-04 12:13:36 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

文章标签： scrapy jsonpath 下载中间件

本文链接：https://blog.youkuaiyun.com/weixin_41218014/article/details/80909623

本文通过一个Scrapy项目实例，详细介绍了如何使用Scrapy和JsonPath爬取智联招聘网站数据。从创建项目到分析网页结构，再到设置下载中间件和自定义爬虫逻辑，全面讲解了爬虫开发流程。同时，讨论了反爬策略，如设置User-Agent、使用代理池等，并提到了数据解析和存储的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，创建项目：

scrapy startproject 项目名称》cd 项目目录手动或者命令（scrapy genspider 爬虫名称域名）创建spider文件

tree结构图如下：

│ main.py

│ scrapy.cfg

│ __init__.py

│

├─zhilian

│ │ items.py

│ │ middlewares.py

│ │ MYmiddlewares.py

│ │ pipelines.py

│ │ settings.py

│ │ __init__.py

│ │

│ ├─spiders

│ │ │ zhilianzhaopin.py

│ │ │ __init__.py

│ │ │

│ │ └─__pycache__

│ │ zhilianzhaopin.cpython-36.pyc

│ │ __init__.cpython-36.pyc

│ │

│ └─__pycache__

│ items.cpython-36.pyc

│ MYmiddlewares.cpython-36.pyc

│ pipelines.cpython-36.pyc

│ settings.cpython-36.pyc

│ __init__.cpython-36.pyc

│

└─__pycache__

__init__.cpython-36.pyc