python之爬虫 scrapy框架实例（八）

最新推荐文章于 2020-06-09 18:04:27 发布

我要糖

最新推荐文章于 2020-06-09 18:04:27 发布

阅读量293

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 爬虫文章标签： python 爬虫 scrapy框架实例

本文链接：https://blog.youkuaiyun.com/qq_44790423/article/details/99694001

python 同时被 2 个专栏收录

31 篇文章

订阅专栏

爬虫

13 篇文章

订阅专栏

本文详细介绍了使用Scrapy框架创建爬虫项目的全过程，包括工程搭建、爬虫生成、配置及运行，通过实例演示了如何抓取指定网页并保存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们前面已经大概了解过如何新建一个scrapy框架项目，我们现在重新来整理一下思路，来练习一下我们的所学知识

演示HTML地址为：http://python123.io/ws/demo.html
文件名称为：demo.html
打开如下所示：
在这里插入图片描述

下面我们将来演示一下如何爬取该地址

我们回顾一下其步骤：

建立一个scrapy爬虫工程
window+r – 输入cmd – 输入scrapy startproject wwwpython(e.g.新建工程wwwpython)

我们会看到文件夹里有这些文件
在这里插入图片描述

在工程中产生一个scrapy爬虫
输入命令就好

cd wwwpython

scrapy genspider demo

这里我们就能在spider工程目录下有一个demo.py的文件了

配置产生的spider爬虫
打开文件，修改我们期望的代码即可
代码如下：

import scrapy

class DemoSpider(scrapy.Spider):
	name = "Demo"
	start_urls = ['http://python123.io/ws/demo.html']

	def parse(self, response):
		fname = response.url.split('/')[-1]
		with open(fname, 'wb') as f:
			f.write(response.body)
		self.log('Save file %s, ' %name)