scrapy-命令

最新推荐文章于 2023-05-04 10:56:43 发布

wait_for_eva

最新推荐文章于 2023-05-04 10:56:43 发布

阅读量318

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wait_for_eva/article/details/79512994

爬虫专栏收录该内容

23 篇文章

订阅专栏

详细的我不说了，我也没本事说清楚。

想知道的话，记住三点

0. 都以scrapy开头

1. 有两级，一级外层，二级针对项目

2. 命令都可以带参数

然后呢，命令行运行scrapy或者 scrapy

命令就会出现了

然后命令参数

scrapy startproject -h

这是没有工程的一级命令

如果有工程的话，进入工程目录scrapy

可以看到多了些命令，scrapy command -h依旧可以查看参数配置

不过菜鸡如我用不了那么多，常用的也就四个

startproject

用来创建scrapy工程的，一般scrapy startproject projectName就可以直接创建工程了

日志等级，日志路径，自己-h查看怎么用

反正我还没好好用过，先会抓了再说

genspider

创建爬虫文件，没啥说的，不过scrapy genspider -l可以看到爬虫文件有四类

不过开始不用指定，自己就创建了，默认basic，其他的你会basic就能够自己动手了

scrapy genspider spiderName spiderUrl

这个东西创建是要传入名称和url的

不过比较坑的是，url中把http://去掉，因为它会给你加上

不去的话，到时候编辑文件和运行的时候你就会发现，弱智的智能让人蛋疼

shell

scrapy shell url

这个命令是个两面派，算是1.5级的命令

在工程当中，不用url，默认用genspider中传入的url

不过也可以自己指定url

这个用来解析response的，至少xpath啥的不可能写完直接跑爬虫

在这里面慢慢调

运行之后是你本地的python的交互界面

不过一般工程内部参数，item，response都可以直接调用调试

Ps：fetch用来测试的，看你的机器性能，同时也用来测试网址通不通，我是还没到那种程度，通不通shell也能看出来

crawl

跑爬虫，scrapy crawl spiderName

没看错，就是genspider的时候传入的那个名字

不过忘记了？或者创建了很多？

scrapy list

就会显示你的爬虫文件了

你的名字也只能是这里面的其中一个

PS：记住了，这个只要名字，不带后缀.py，命令runspider才带.py进行爬虫文件的直接指定，runspider指定的不一定是py爬虫，其他类型的都可以跑，一个文件，一个名称，记住了

其他命令？我用不到就不看，用到了再说，小学看微积分能够啥用

文件目录？反正我觉得，啥都不知道还能分类？到时候一个个认。

什么先总后分，我一下啃不了那么多，都明白了也是皮毛。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。