python之爬虫 scrapy框架实例(八)

本文详细介绍了使用Scrapy框架创建爬虫项目的全过程,包括工程搭建、爬虫生成、配置及运行,通过实例演示了如何抓取指定网页并保存。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们前面已经大概了解过如何新建一个scrapy框架项目,我们现在重新来整理一下思路,来练习一下我们的所学知识


演示HTML地址为:http://python123.io/ws/demo.html
文件名称为:demo.html
打开如下所示:
在这里插入图片描述

下面我们将来演示一下如何爬取该地址


我们回顾一下其步骤:

  1. 建立一个scrapy爬虫工程
    window+r – 输入cmd – 输入scrapy startproject wwwpython(e.g.新建工程wwwpython)

我们会看到文件夹里有这些文件
在这里插入图片描述

  1. 在工程中产生一个scrapy爬虫
    输入命令就好
cd wwwpython
scrapy genspider demo

这里我们就能在spider工程目录下有一个demo.py的文件了

  1. 配置产生的spider爬虫
    打开文件,修改我们期望的代码即可
    代码如下:
import scrapy

class DemoSpider(scrapy.Spider):
	name = "Demo"
	start_urls = ['http://python123.io/ws/demo.html']

	def parse(self, response):
		fname = response.url.split('/')[-1]
		with open(fname, 'wb') as f:
			f.write(response.body)
		self.log('Save file %s, ' %name)
  1. 运行代码
    输入
scrapy crawl demo

可看到执行,结束语句为:INFO: Closing spider (finished)
且文件也保存在根目录中


第八篇关于scrapy框架就到此结束啦!
主要是来重新梳理一下思路,由于第七篇解释的内容过多,故重新概括一下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值