scrapy框架第一个实例

本文详细介绍使用Scrapy框架创建并运行爬虫的过程。通过实例网页的爬取演示了从项目搭建、爬虫生成到配置及运行的完整流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实例网页:https://python123.io/ws/demo.html
在这里插入图片描述
准备工作:在E盘中新建一个文件夹pyscrapyfile
步骤如下:
1.建立一个工程,工程名为python123demo
在命令行下进行E盘中的pyscrapyfile文件夹,输入命令

scrapy startproject python123demo

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

如上图,工程建立之后会出现这些文件与文件夹,下面简单介绍这些文件
python123demo/是最外层目录

scrapy.cfg 部署scrapy爬虫的配置文件
python123demo/文件夹scrapy框架的用户定义的python代码

init.py 初始化脚本 不需要修改
items.py Items代码模板
middlewares.py middlewares代码模板
pipelines.py pipelines代码
settings.py 爬虫配置文件

spiders/ 模板目录
init.py 初始文件 不需要修改
pycache.py 缓存目录,无需修改

第二步:产生一个爬虫

scrapy genspider demo python123.io

demo是爬虫名字,python123.io是要爬取的网站
在这里插入图片描述

在这里插入图片描述
demo爬虫产生在spiders文件夹下
在这里插入图片描述

第三步:配置产生的爬虫文件
allowed_domains 表示只能爬取该url下的文件
start_urls修改为爬取得网页链接

在这里插入图片描述
第四步:运行爬虫

scrapy crawl demo

在这里插入图片描述
在这里插入图片描述

爬虫爬取成功!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值