1.什么是分布式
分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器,处理更多的数据。
2.scrapy如何实现分布式
由于需要爬取的数据量大,任务多,一台机器效率太低,需要多台机器共同协作处理。分布式爬虫将多台主机组合起来, 共同完成一个爬取任务,快速高效地提高爬取效率。
分布式爬虫可以分为若干个分布式层级,不同的应用可能由其中部分层级构成。
大型分布式爬虫主要分为以下3个层级:分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫系统由全球多个分布式数据中心共同组成,每个数据中心又由多台高速网络连接的抓取服务器构成,而每台服务器又可以部署多个爬虫程序。通过多层级的分布式爬虫体系,才可能保证抓取数据的及时性和全面性。
3.什么是redis
Redis数据库,隶属于NoSql类型数据库,又称非关系类型数据库
4.redis支持的数据类型有哪些?
字符串 哈希 列表 集合 有序集合
5.redis的特点和优势?
6.运行redis服务端的命令是什么?
redis-server.exe redis.windows.conf
7.运行redis客户端的命令是什么?
redis-cil.exe -h 127.0.0.1 -p 6379
8.守护进程
后台进程
9.常用端口有哪些?
25
80
443
3306
6379
10.复杂度
时间复杂度和空间复杂度
11.商城秒杀的功能实现逻辑是什么?
12.redis的备注与恢复
save/bgsave
13.redis默认支持的客户端连接量为多少?如何修改

本文深入探讨了分布式系统的基本概念及其在爬虫领域的应用,详细解析了Scrapy分布式爬虫的工作原理,以及Redis数据库的功能与特性,包括其支持的数据类型、特点、服务端与客户端的启动方式。
1635

被折叠的 条评论
为什么被折叠?



