
大数据相关组件
文章平均质量分 93
日常随笔和转载
KG大数据
这个作者很懒,什么都没留下…
展开
-
Hadoop生态里,为什么Hive活了下来
目录0- 前言1- Hive Metastore 做了什么?1.1- 虚拟化1.2- 可发现性1.3- 模式演化1.4- 性能2- Hive 会在下一次革命中幸存吗?2.1- 开放表格式2.2- 数据目录2.3- 可观察性工具3- 结语0- 前言Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;原创 2022-04-15 13:41:31 · 376 阅读 · 0 评论 -
MapReduce细致讲解(数据开发面试必问)
目录1- MapReduce1.1- MapReduce 设计构思2- MapReduce 编程规范3- Mapper以及Reducer抽象类介绍4- WordCount示例编写5- WordCount示例编写6- MapReduce的运行机制详解6.1- MapTask 工作机制6.2- ReduceTask 工作机制6.3- Shuffle 过程7- Reduce 端实现 JOIN7.1- 需求7.2- 实现步骤8- Map端实现 JOIN8.1- 概述8.2- 概述9- 社交粉丝数据分析9.1- 需求转载 2021-11-22 16:18:44 · 361 阅读 · 0 评论 -
MapReduce的Join解析(Java代码实现map-join)
目录0- 引言1- Reduce Join(会出现数据倾斜)2- Map Join0- 引言在hadoop的mapreduce中,数据通过map拉取并打标签,之后通过shuffle过程到reduce端关联得到结果的join称为reduce-join。只在map端关联得到结果的join称为map-join。1- Reduce Join(会出现数据倾斜)通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行原创 2021-11-10 18:28:42 · 4580 阅读 · 0 评论 -
hive的map-join原理
目录1- Join如何运行2- 使用分布式缓存3- 根据文件大小将Join转换为MapJoin4- Example1- Join如何运行首先,让我们讨论一下 Join 如何在Hive中运行。Common Join 操作如图1所示被编译为 MapReduce 任务。Common Join 任务涉及 Map 阶段和 Reduce 阶段。Mapper 从连接表中读取数据并将连接的 key 和连接的 value 键值对输出到中间文件中。Hadoop 在所谓的 shuffle 阶段对这些键值对进行排序和合并。Re原创 2021-11-08 19:14:03 · 1167 阅读 · 0 评论 -
Spark面试大厂必问
目录1- Spark 的运行流程?2- Spark 有哪些组件?3- Spark 中的 RDD 机制理解吗?4- RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么?5- 介绍一下 cogroup rdd 实现原理,你在什么场景下用过这个 rdd?6- 如何区分 RDD 的宽窄依赖?7- 为什么要设计宽窄依赖?8- DAG 是什么?9- DAG 中为什么要划分 Stage?10- 如何划分 DAG 的 stage?11- DAG 划分为 Stage 的算法了解吗?12- 对于原创 2021-11-03 17:32:16 · 1882 阅读 · 1 评论 -
Kafka知识体系总结【附大厂高频面试题】
目录0- 知识图谱1- 消息队列1.1- 消息队列的介绍1.2- 消息队列的应用场景1.3- 消息队列的两种模式1.3.1- 点对点模式1.3.2- 发布/订阅模式1.4- 常用的消息队列介绍1.4.1- RabbitMQ1.4.2- ActiveMQ1.4.3- RocketMQ1.4.4- Kafka1.5- Pulsar1.5.1- Pulsar 的特性1.5.2- Pulsar 存储架构1.5.3- Pulsar 消息消费1.6- Kafka与Pulsar对比1.6.1- Pulsar 的主要优势1转载 2021-11-03 11:05:48 · 771 阅读 · 2 评论 -
如何提高HDFS的 I/O利用率【Uber】
目录0- 前言1- 新的 CAP 理论2- 硬盘有多忙?3- 主机有多忙?4- 集群有多忙?5- 如何提高 HDFS IO 利用率6- 长期策略0- 前言以较低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。为了适应 Uber 数据存储和分析计算的指数级增长,数据基础设施团队通过结合硬件重新设计软件层,以扩展 Apache Hadoop® HDFS :HDFS Federation、Warm Storage、YARN 在 HDFS 数据节点上共存,以及 YARN 利用率的提高提原创 2021-10-28 19:51:56 · 580 阅读 · 0 评论 -
HDFS架构个人精简总结
目录0- 前言1- HDFS架构2- NameNode3- SecondaryNameNode4- DataNode5- 总结0- 前言HDFS 是 Hadoop 中存储数据的基石,存储着所有的数据,具有高可靠性,高容错性,高可扩展性,高吞吐量 等特征,能够部署在大规模廉价的集群上,极大地降低了部署成本。有意思的是,其良好的架构特征使其能够存储海量的数据。本篇文章,我们就来聊一下,Hadoop HDFS的架构!1- HDFS架构HDFS采用 Master/Slave 架构存储数据,且支持 Nam原创 2021-10-28 11:13:57 · 178 阅读 · 0 评论 -
HDFS 底层交互原理,(全网最高效讲解!!)
目录0-前言1-HA架构模型1.1-HA高可用介绍1.2-HA主备故障切换流程1.3-Block、packet及chunk 概念2-HDFS源码级读写流程2.1-HDFS 读流程2.1-HDFS 写流程3-HDFS 如何保证可用性?4-HDFS 高频面试题0-前言HDFS全称是 Hadoop Distribute File System,是 Hadoop最重要的组件之一,也被称为分步式存储之王。本文主要从 HDFS 高可用架构组成、HDFS 读写流程、如何保证可用性以及高频面试题出发,提高大家对 HD原创 2021-09-12 14:56:48 · 454 阅读 · 0 评论 -
HDFS 的 SecondaryNameNode 到底是干什么的
目录0-前言1-NN与fsimage、edit log文件0-前言HDFS SecondaryNameNode是干什么的?这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答案甚至有“不就是NameNode的热备嘛 ”。本文来简单聊聊相关的知识,为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。1-NN与fsimage、edit log文件NN负责管理HDFS中所有的元数据,包括原创 2021-09-09 23:33:23 · 435 阅读 · 0 评论 -
YARN详细调度流程
文章目录yarn概述一、yarn的重要概念二、yarn资源调度全流程1.流程图2.详细流程总结yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。一、yarn的重要概念yarn并不清楚用户提交的程序的运行机制。yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)。yarn中的主管角色叫ResourceManager。yarn中具体提供运算原创 2020-10-11 22:56:09 · 2042 阅读 · 0 评论 -
HDFS读写流程个人珍藏总结
hdfs读写流程HDFS写流程1.详细写步骤2.详细读步骤总结HDFS写流程提示:写流程图如下:1.详细写步骤客户端(FS shell)向namenode请求上传文件,namenode检查文件是否存在,父目录是否存在。namenode返回客户端是否可以上传。客户端请求第一个block上传到哪几个datanode上。namenode返回客户端3个datanode(假设)节点,dn1,dn2,dn3.客户端请求dn1上传数据,dn1发送请求给dn2,dn2发给dn3,(传递的本质时RPC原创 2020-10-11 22:14:26 · 216 阅读 · 0 评论