scrapy-命令

详细的我不说了,我也没本事说清楚。

想知道的话,记住三点

0. 都以scrapy开头

1. 有两级,一级外层,二级针对项目

2. 命令都可以带参数

然后呢,命令行运行scrapy或者 scrapy


命令就会出现了

然后命令参数

scrapy startproject -h


这是没有工程的一级命令

如果有工程的话,进入工程目录scrapy


可以看到多了些命令,scrapy command -h依旧可以查看参数配置


不过菜鸡如我用不了那么多,常用的也就四个

startproject

用来创建scrapy工程的,一般scrapy startproject projectName就可以直接创建工程了

日志等级,日志路径,自己-h查看怎么用

反正我还没好好用过,先会抓了再说


genspider

创建爬虫文件,没啥说的,不过scrapy genspider -l可以看到爬虫文件有四类


不过开始不用指定,自己就创建了,默认basic,其他的你会basic就能够自己动手了

scrapy genspider spiderName spiderUrl

这个东西创建是要传入名称和url的

不过比较坑的是,url中把http://去掉,因为它会给你加上

不去的话,到时候编辑 文件和运行的时候你就会发现,弱智的智能让人蛋疼 


shell

scrapy shell url

这个命令是个两面派,算是1.5级的命令 

在工程当中,不用url,默认用genspider中传入的url

不过也可以自己指定url

这个用来解析response的,至少xpath啥的不可能写完直接跑爬虫 

在这里面慢慢调

运行之后是你本地的python的交互界面

不过一般工程内部参数,item,response都可以直接调用调试

Ps:fetch用来测试的,看你的机器性能,同时也用来测试网址通不通,我是还没到那种程度,通不通shell也能看出来


crawl

跑爬虫,scrapy crawl spiderName

没看错,就是genspider的时候传入的那个名字

不过忘记了?或者创建了很多?

scrapy list


就会显示你的爬虫文件了

你的名字也只能是这里面的其中一个



PS:记住了,这个只要名字,不带后缀.py,命令runspider才带.py进行爬虫文件的直接指定,runspider指定的不一定是py爬虫,其他类型的都可以跑,一个文件,一个名称,记住了 


其他命令?我用不到就不看,用到了再说,小学看微积分能够啥用

文件目录?反正我觉得,啥都不知道还能分类?到时候一个个认。

什么先总后分,我一下啃不了那么多,都明白了也是皮毛。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值