Python学习笔记3--爬虫框架scrapy 安装和基本命令行

失眠的牛奶杯

于 2020-08-10 20:56:36 发布

阅读量290

点赞数

分类专栏： python 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_23586923/article/details/107916209

版权

学习笔记同时被 2 个专栏收录

34 篇文章

订阅专栏

14 篇文章

订阅专栏

本文介绍Scrapy爬虫框架的基本概念、工作流程及安装方法。Scrapy是一款用于高效抓取网站数据并提取结构化数据的应用框架，通过异步网络处理提升爬取速度。文章涵盖依赖库安装、项目与爬虫创建、基本命令使用等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.什么是scrapy

scrapy是一个为了爬取网站数据，提起结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取数据。使用了异步网络框架，可以加快速度。

2.scrapy的工作流程

2.1之前的流程

2.2另一种形式爬虫流程

3.安装scrapy

3.1首先安装的是4个依赖库

lxml

pyOpenSSL

Twisted

PyWin32

3.2 执行安装screpy

pip3 install Scrapy

4 .简单实用Scrapy

创建项目：scrapy startproject xxx
进入项目：cd xxx #进入某个文件夹下
创建爬虫：scrapy genspider xxx（爬虫名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某种类型的文件)
运行爬虫：scrapy crawl XXX
列出所有爬虫：scrapy list
获得配置信息：scrapy settings [options]

失眠的牛奶杯

博客等级

码龄11年

72
原创

42
点赞

179
收藏

37
粉丝

关注

私信

热门文章

分类专栏

PHP 13篇
docker 1篇
服务端 1篇
python 14篇
JavaScript 2篇
vue 4篇
Nginx 1篇
linux 4篇
swoole 1篇
设计模式 3篇
视频直播 1篇
源码分析 1篇
学习笔记 34篇
git和码云 1篇
码云 1篇
apache 3篇
ssl 2篇
workerman 2篇
mysql 11篇
redis 4篇

展开全部收起

最新评论

tp5使用RabbitMQ的使用记录
dw5235: 如果关闭窗口监听任务还在运行吗
Python Django使用celery发送邮件
北风之神c: 写得赞，博主用心了，但主要还是celery太难用了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 pip install funboost
利用getData获取图片中的图表信息数据
请叫我大板牙: 重点是如何搞破解版啊！！！
利用getData获取图片中的图表信息数据
请叫我大板牙: 重点是如何搞破解版啊！！！
怎么理解观察者模式？
沫林: 现在很多公司都是前后端分离的吧，而且前端框架一般都可以做到数据驱动吧，那观察都模式还有什么用呢？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。