scrapy框架-新智联招聘爬取数据(仅供学习参考),熟知-jsonpath的应用

本文通过一个Scrapy项目实例,详细介绍了如何使用Scrapy和JsonPath爬取智联招聘网站数据。从创建项目到分析网页结构,再到设置下载中间件和自定义爬虫逻辑,全面讲解了爬虫开发流程。同时,讨论了反爬策略,如设置User-Agent、使用代理池等,并提到了数据解析和存储的细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一,创建项目:

scrapy startproject  项目名称 》cd 项目目录     手动或者命令(scrapy genspider 爬虫名称 域名)创建spider文件

tree结构图如下:

│  main.py

│  scrapy.cfg

│  __init__.py

├─zhilian

│  │  items.py

│  │  middlewares.py

│  │  MYmiddlewares.py

│  │  pipelines.py

│  │  settings.py

│  │  __init__.py

│  │

│  ├─spiders

│  │  │  zhilianzhaopin.py

│  │  │  __init__.py

│  │  │

│  │  └─__pycache__

│  │          zhilianzhaopin.cpython-36.pyc

│  │          __init__.cpython-36.pyc

│  │

│  └─__pycache__

│          items.cpython-36.pyc

│          MYmiddlewares.cpython-36.pyc

│          pipelines.cpython-36.pyc

│          settings.cpython-36.pyc

│          __init__.cpython-36.pyc

└─__pycache__

        __init__.cpython-36.pyc    


spider文件:zhilianzhaopin.py详解:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值