运用scrapy爬取智联网

honey_023

于 2021-09-29 17:02:00 发布

阅读量264

点赞数 1

分类专栏：笔记文章标签： python 数据库爬虫

本文链接：https://blog.youkuaiyun.com/m0_61601582/article/details/120551690

版权

本文是作者honey分享的大二实训项目，介绍如何运用scrapy框架抓取网站数据并存储到数据库。内容包括scrapy的设置、items参数定义及pipelines中的爬取代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习目标：

运用scrapy框架

将爬取的数据保存到数据库

学习内容：

1、掌握 python基本语法

2、运用pychrame开发环境
3、获取数据

4、保存到数据库

学习时间：

1、周一至周五晚上 7 点—晚上9点
2、周六上午 9 点-上午 11 点
3、周日下午 3 点-下午 6 点

学习产出：

大家好丫！我是honey,我今天想要和大家分享一下我大二实训是所搞的项目。嘿嘿就是爬取网站的数据。我想分享一下我的代码。

大家应该都知道scrapy框架吧，这个框架用来爬虫真的是绝绝子，首先在setting里面对所要运用的函数进行设置。

这里我就只贴出数据库的设置，其他该打开的我就不细说了哈，大家都会。

#数据库的相关设置
MYSQL_HOST = '127.0.0.1'
MYSQL_USER = 'root'
MYSQL_PASSWORD =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

honey_023

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scrapy爬取智联，只用于学习，不能商用

阅读之后，对你有帮助，那就点个赞再走吧

04-27

409

# -*- coding: utf-8 -*- import scrapy import json from ..items import ZhiLianItem class SpiderZhelianSpider(scrapy.Spider): name = 'spider_zhelian' # allowed_domains = ['aaa'] start = 0 ...

爬取智联招聘网站的手段（scrapy）

qq_36992605的博客

08-03

4371

首先www.zhaopin.com是智联招聘网站的首页，进行搜索后，比如搜Java，点右键查看网页源代码可以看到，网页里面搜到的内容是异步加载的如图所示：然后点击f12打开开发者工具，如图：再点击刷新查看发送的异步请求，并进行分析：可以看到发送了两个异步请求，发现第二个是个后端接口，直接拿到postman中进行测试，如图：发现是标准的接口，直接调用接口即可爬取到网...

2 条评论您还未登录，请先登录后发表或查看评论

基于scrapy框架下爬取智联招聘--并把信息存储下来

guifei010的博客

03-02

2643

1.在之前爬取的JobSpider中的Terminal终端中，直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)# -*- coding: utf-8 -*- import scrapy fr...

scrapy 智联 mysql_scrapy 爬取智联招聘

weixin_29476595的博客

01-27

260

#-*- coding: utf-8 -*-importosimportjsonfrom tinydb importTinyDB, Queryfrom furl importfurlimportscrapyclassZhaopinspiderSpider(scrapy.Spider):name= 'ZhaopinSpider'allowed_domains= ['www.zhaopin.com',...

Scrapy第一战—爬取智联招聘

潇洒书生

08-29

916

Scrapy是专业级T_T爬虫框架，在研究爬虫领域颇负盛名，是当今世界最流行的爬虫框架，没有之一。不过如此强大的爬虫框架，学习成本却比较高，作为一个新手，我对此感同身受，希望我的学习心得，避免大家入坑。 ## 安装Scrapy 打开命令行，输入 : `pip install scrapy `就是这么简单，安装完成。项目### 创建项目通过命令行进入你要放置项目的文件，输入：

环球网新闻数据爬取工具使用指南

例如《中华人民共和国网络安全法》和《计算机信息网络国际联网安全保护管理办法》等都对网络爬取活动做了相应的规定。同时，网站的robots.txt文件中通常会声明哪些内容可以被抓取，哪些内容不可以。对于环球网这样的...

联网搜索功能如何实现

02-20

为了构建高效的联网搜索功能，需综合运用多种关键技术。全文搜索引擎的工作原理是基于爬取网页内容并建立索引库，使得用户能够快速查询所需信息[^1]。 #### 系统架构设计系统的整体架构分为几个主要部分： - **...

【爬虫性能优化】：多线程与异步IO在cnvd信息爬取中的高效应用

[【爬虫性能优化】：多线程与异步IO在cnvd信息爬取中的高效应用](https://cdn.hashnode.com/res/hashnode/image/upload/v1628159334680/NIcSeGwUU.png?border=1,CCCCCC&auto=compress&auto=compress,format&format=...

深入浅出Python3爬虫技术：从入门到分布式抓取实战

Python3 scrapy爬取智联招聘存MongoDB

Mr_Lewis的博客

02-15

1228

本篇文章使用 scrapy 框架爬取智联北京地区的 PHP 岗位招聘信息，将爬取到的数据保存到本地 MongoDB 数据库 和本地 zhilian_php.csv 文件中。爬取到的结果如下：开发环境：操作系统：Ubuntu 16.04 Python 版本：Python 3.5.2 Scrapy 框架版本：Scrapy 1.5.1 编辑器：PyCharm 最终的项目目录树为：编写一个爬虫的基...

Scrapy框架爬取51job和智联招聘数据信息

02-28

Scrapy框架爬取51job和智联招聘数据信息 Scrapy框架爬取51job和智联招聘数据信息

python爬虫scrapy框架，对于智联招聘职位进行抓取

12-20

python爬虫scrapy框架，对于智联招聘职位进行抓取 python爬虫scrapy框架，对于智联招聘职位进行抓取

scrapy的智联招聘爬虫

04-29

用scrapy写的智联爬虫！！

基于scrapy的智联职位爬虫

08-29

基于scrapy的智联职位爬虫，使用python3.

智联招聘岗位信息爬取

04-12

使用Python2.7的版本，爬取智联招聘岗位信息，并将招聘结果保存在excel中。

scrapy 智联 mysql_Python利用Scrapy爬取智联招聘和前程无忧的招聘数据

weixin_32629285的博客

01-28

863

爬虫起因前面两个星期，利用周末的时间尝试和了解了一下Python爬虫，紧接着就开始用Scrapy框架做了一些小的爬虫，不过，由于最近一段时间的迷茫，和处于对职业生涯的规划。以及对市场需求的分析，我通过网上查阅资料。对比较大的前程无忧和智联招聘进行了数据爬取。这里我们以智联招聘为例做一些讲解。前期准备首先我在我自己做爬虫之前就已经规划好了我需要爬取什么数据，并且创建了数据库表，并提前对网页内容有大概...

scrapy爬虫日志_2:[爬取智联招聘]

NewDreamstyle的博客

05-11

456

问题 1,item 报错如下图具体原因不去追究【实在没工夫，这框架先用着，，，，】，解决方案：在item中追加_id 代码这个是spider板块即主体部分：***主要思路是先转为json文件，然后对json文件进行解析得到链接，再对链接进行分析爬取 Chrome打开网页->检查->network->XHR->复制Request-url 在postman（一个软件...

scrapy使用之爬取智联招聘

Li_peipei的博客

12-04

2722

智联招聘是通过动态加载文件获取数据，所以一开始解析的url不是网页的地址，而是json 文件，寻找json文件的方法。通过查看各个工作具体的网址得知规律；https://job.zhaopin.com/XXXXX.htm, 其中XXXX就是json文件中number对应的值。步骤：解析json文件，得到所有number对应的值通过拼接得到新的网址进入网址，得到自己想要的内容进入网址，得到...

使用scrapy框架+模拟浏览器方法实现爬取智联的职位信息

qq_42827960的博客

11-29

785

由于智联的页面是由js动态加载的,一般的方法只能得到js加载前的页面,为了得到加载过的页面需要通过模拟浏览器来拿到完整的页面. 下面的代码只是简单的实现,爬取智联页面的部分功能,其他根据需要自己实现中间件(middleswares.py)代码: from scrapy.http import HtmlResponse from selenium import webdriver import ...

scrapy爬取

最新发布

03-28

<think>好的，用户想了解如何使用Scrapy进行网页爬取。首先，我需要回忆一下Scrapy的基本架构和工作流程。Scrapy是一个强大的Python框架，专门用于高效地爬取网页并提取结构化数据。根据用户提供的引用内容，特别是引用[2]中提到Scrapy提供了多种爬虫基类，并且可以方便地修改，这应该是回答的重点。接下来，我应该分步骤解释如何创建Scrapy项目，定义Item类，编写爬虫，以及处理数据。需要确保用户理解每个步骤的作用，比如生成项目结构、定义要抓取的数据字段、使用Spider类编写爬取逻辑，以及通过Item Pipeline处理数据存储。用户可能对动态网页爬取有疑问，但根据问题，主要关注的是基本爬取流程。不过引用[1]提到使用Scrapy-Splash处理动态内容，这可能是一个相关的高级话题，可以在相关问题中提及。另外，用户提供的引用[3]涉及递归爬取，即如何处理分页或深层链接。这也是实现完整爬虫的重要部分，需要在步骤中说明如何通过回调函数或跟进链接来实现。需要注意使用正确的中文术语，比如“爬虫”而不是“蜘蛛”，同时确保代码示例符合Scrapy的最新版本语法，例如使用start_requests方法和yield语句生成请求。还要提醒用户运行爬虫的命令，如scrapy crawl，如引用[1]中的示例。最后，生成的相关问题需要覆盖用户可能进一步探索的方向，比如处理动态内容、数据存储优化、递归爬取策略以及遵守Robots协议等。这些扩展问题可以帮助用户深入理解Scrapy的不同方面。</think>### 如何用Scrapy实现网页爬取 #### 1. 创建Scrapy项目通过命令行初始化项目结构： ```bash scrapy startproject myproject cd myproject ``` 生成的文件包含`items.py`（数据模型）、`middlewares.py`（中间件）、`pipelines.py`（数据处理）和`settings.py`（配置）[^2]。 #### 2. 定义数据模型在`items.py`中声明要抓取的字段： ```python import scrapy class ArticleItem(scrapy.Item): title = scrapy.Field() content = scrapy.Field() url = scrapy.Field() ``` #### 3. 编写爬虫逻辑在`spiders/`目录下新建爬虫文件（如`article_spider.py`）： ```python import scrapy from myproject.items import ArticleItem class ArticleSpider(scrapy.Spider): name = "news_crawler" start_urls = ["https://example.com/news"] def parse(self, response): # 提取文章列表 for article in response.css("div.article-list"): item = ArticleItem() item["title"] = article.css("h2::text").get() item["url"] = article.css("a::attr(href)").get() # 跟进详情页 yield response.follow(item["url"], self.parse_detail, meta={"item": item}) def parse_detail(self, response): item = response.meta["item"] item["content"] = response.css("div.main-content::text").getall() yield item ``` #### 4. 配置参数优化在`settings.py`中设置： ```python USER_AGENT = "Mozilla/5.0 (compatible; MyBot/1.0)" DOWNLOAD_DELAY = 2 # 降低请求频率 AUTOTHROTTLE_ENABLED = True # 自动限速 ITEM_PIPELINES = { "myproject.pipelines.JsonWriterPipeline": 300, } ``` #### 5. 数据存储处理在`pipelines.py`中实现存储逻辑： ```python import json class JsonWriterPipeline: def open_spider(self, spider): self.file = open("articles.jl", "w") def close_spider(self, spider): self.file.close() def process_item(self, item, spider): line = json.dumps(dict(item)) + "\n" self.file.write(line) return item ``` #### 6. 执行爬虫通过命令运行（支持多种输出格式）： ```bash scrapy crawl news_crawler -o articles.csv ``` #### 关键组件说明 - **引擎(Engine)**: 控制数据流的核心系统 - **调度器(Scheduler)**: 管理请求队列 - **下载器(Downloader)**: 处理HTTP请求 - **爬虫(Spider)**: 自定义抓取规则 - **中间件(Middleware)**: 扩展请求/响应处理 - **管道(Pipeline)**: 数据清洗与持久化