爬虫框架Scrapy的入门使用

前提:安装好scrapy模块
使用pip install scrapy

步骤一:创建项目

在你的程序主目录执行下面命令

scrapy startproject baidu

在这里插入图片描述
然后根据步骤继续执行

cd baidu
scrapy genspider baidu baidu.com
注意:在这里可能会出现scrapy没有此命令的错误,请检查环境变量是否配置

步骤二:idea打开项目

我们现在请打开idea,看目录结构
在这里插入图片描述

步骤三:编写代码

我们打开baidu.py文件

我们可以在重写的parse方法里面实现我们的业务,使用正则,xpath,等等对response相应回来的数据进行解析。这里小编只是单纯的保存了一下.
在这里插入图片描述
写一个保存的功能

步骤四:执行

scrapy crawl baidu
在这里插入图片描述
然后请当前目录查看文件,发现没有baidu.html我们保存的文件

原因:
百度服务器应对爬虫协议:
https://www.baidu.com/robots.txt
在这里插入图片描述
在这里插入图片描述
再次执行命令。成功保存。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值