scrapy爬虫的一些命令行命令

scrapy爬虫

创建项目

scrapy startproject 项目名

创建一个名为itcast的爬虫,并指定爬取域的范围

scrapy genspider itcast “itcast.cn

scrapy crawl 项目名 -------------启动爬虫

scrapy-redis分布式爬虫启动项目
scrapy runspider 项目名.py

redis-cli -h windows端ip
lpush 项目名 目标网址

scrapy保存信息的最简单的方法主要有四种,-o 输出指定格式的文件,,命令如下:

json格式,默认为Unicode编码

scrapy crawl itcast -o teachers.json

json lines格式,默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式,可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

创建Rule规则的爬虫

scrapy genspider -t crawl Itcast ‘itcast.cn

scrapy crawl 项目名 --nolog

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值