
大数据入门
文章平均质量分 94
学校里关于大数据方面的选修课程很不错,老师的教学由浅入深,覆盖到了方方面面,趁现在有时间整理一下。除此之外,还会搜集一些优质的学习资源并进行整理
&再见萤火虫&
不卑不亢,沉稳可靠。
展开
-
06-分布式消息队列Kafka
基于发布/订阅的分布式消息系统由Linkedin开发,用Scala编写。原创 2022-08-06 22:08:13 · 714 阅读 · 0 评论 -
05-分布式计算框架
MR是面向离线批处理的分布式计算框架核心思想分而治之,并行计算。移动计算,非移动数据;适用场景数据统计,如网站的PV、UV统计搜索引擎构建索引海量数据查询复杂数据分析算法实现不适用场景OLAP要求毫秒或秒级返回结果流计算输入数据集是动态的,而MapReduce是静态的DAG计算-多个任务之间存在依赖关系,后一个的输入是前一个的输出,构成DAG有向无环图-MapReduce很难避免Suffle,造成大量磁盘IO,导致性能较为低下MapReduce有较大的局限性。...原创 2022-08-01 00:57:26 · 1125 阅读 · 0 评论 -
04-分布式资源管理系统YARN
既是计算框架,又是资源管理系统;仅把Task数量看作资源,没有考虑CPU和内存;扩展性较差,集群规模上限4K;源码难于理解,升级维护困难;为了让MR专注于计算,所以引入了YARN来负责具体的资源管理,从而提高性能。YARN,YetAnotherResourceNegotiator,另一种资源管理器设计目标聚焦资源管理、通用(适用各种计算框架)、高可用(元数据和Master高可用)、高扩展(与HDFS同步扩展)、高容错(计算容错)...原创 2022-07-23 20:55:02 · 594 阅读 · 0 评论 -
03-分布式文件系统HDFS
概念Hadoop分布式文件系统(HadoopDistributedFileSystem)•2003年10月Google发表了GFS(GoogleFileSystem)论文HDFS是GFS的开源实现HDFS是ApacheHadoop的核心子项目在开源大数据技术体系中,地位无可替代设计目标运行在大量廉价商用机器上硬件错误是常态,提供容错机制;简单一致性模型一次写入多次读取,支持追加写,但不允许并发写和随机修改,通过对写操作的严格限制来保证数据的一致性;批量读。...原创 2022-07-17 21:17:55 · 971 阅读 · 0 评论 -
02-分布式协调服务ZooKeeper
目录一,ZooKeeper简介1,什么是Zookeeper2,基本特性二,ZooKeeper原理1,系统架构1.1 角色分工1.2 设计思想1.3 为什么要引入Observer(ZK 3.3.0)?2,数据模型2.1 Znode2.2 Znode Tree2.3 会话session2.4 Znode节点类型2.5 Znode版本2.6 Znode属性3,数据读写3.1 ZAB协议3.2 数据写入3.3 数据恢复3.4 数据读取4,Leader选举4.1 服务器四种状态4.2 启动期间leader选举4.3原创 2022-06-26 10:09:32 · 679 阅读 · 0 评论 -
01-分布式系统概述&大数据技术生态体系
目录一,什么是分布式系统1,概念2,特点3,典型问题二,CAP定理1,C、A、P2,CAP定理三,BASE理论1,BA、S、EC二,BASE理论将硬件或软件组件(服务)分布在不同的网络计算机上,通过消息传递进行通信和协调。分布性对等性并发性故障独立性通信异常网络分区(脑裂)节点故障三态C(Consistency,一致性)A(Availability,可用性)P(Partition Tolerance,分区容错性)表述:分布式系统在同一时间片段内,不可能同时满足一致性C、可用性A和分区容错性P,最多只能满足其原创 2022-06-25 10:24:42 · 550 阅读 · 0 评论