详细的我不说了,我也没本事说清楚。
想知道的话,记住三点
0. 都以scrapy开头
1. 有两级,一级外层,二级针对项目
2. 命令都可以带参数
然后呢,命令行运行scrapy或者 scrapy
命令就会出现了
然后命令参数
scrapy startproject -h
这是没有工程的一级命令
如果有工程的话,进入工程目录scrapy
可以看到多了些命令,scrapy command -h依旧可以查看参数配置
不过菜鸡如我用不了那么多,常用的也就四个
startproject
用来创建scrapy工程的,一般scrapy startproject projectName就可以直接创建工程了
日志等级,日志路径,自己-h查看怎么用
反正我还没好好用过,先会抓了再说
genspider
创建爬虫文件,没啥说的,不过scrapy genspider -l可以看到爬虫文件有四类
不过开始不用指定,自己就创建了,默认basic,其他的你会basic就能够自己动手了
scrapy genspider spiderName spiderUrl
这个东西创建是要传入名称和url的
不过比较坑的是,url中把http://去掉,因为它会给你加上
不去的话,到时候编辑 文件和运行的时候你就会发现,弱智的智能让人蛋疼
shell
scrapy shell url
这个命令是个两面派,算是1.5级的命令
在工程当中,不用url,默认用genspider中传入的url
不过也可以自己指定url
这个用来解析response的,至少xpath啥的不可能写完直接跑爬虫
在这里面慢慢调
运行之后是你本地的python的交互界面
不过一般工程内部参数,item,response都可以直接调用调试
Ps:fetch用来测试的,看你的机器性能,同时也用来测试网址通不通,我是还没到那种程度,通不通shell也能看出来
crawl
跑爬虫,scrapy crawl spiderName
没看错,就是genspider的时候传入的那个名字
不过忘记了?或者创建了很多?
scrapy list
就会显示你的爬虫文件了
你的名字也只能是这里面的其中一个
PS:记住了,这个只要名字,不带后缀.py,命令runspider才带.py进行爬虫文件的直接指定,runspider指定的不一定是py爬虫,其他类型的都可以跑,一个文件,一个名称,记住了
其他命令?我用不到就不看,用到了再说,小学看微积分能够啥用
文件目录?反正我觉得,啥都不知道还能分类?到时候一个个认。
什么先总后分,我一下啃不了那么多,都明白了也是皮毛。