
Hadoop
文章平均质量分 79
stable_阿甘
用心学习,用心做事
展开
-
parquet
本文介绍了parquet的设计与实现,以及和orc的对比原创 2023-01-15 09:08:17 · 772 阅读 · 0 评论 -
rcfile和orcfile
本文介绍了行式存储和列式存储的区别,以及RC File的实现及其优缺点,最后介绍了ORC File的实现原创 2023-01-15 08:41:56 · 509 阅读 · 0 评论 -
replicate join的实现
本文介绍了基于复制算法的Join优化的实现原创 2023-01-15 08:33:05 · 200 阅读 · 0 评论 -
MR实现Join的方式
本文介绍了MR实现Join的方式,即用Mutiple inputs和二次排序原创 2023-01-15 08:09:15 · 322 阅读 · 0 评论 -
MR全排序和二次排序
本文介绍了MapReduce的全排序和二次排序机制原创 2022-10-07 20:58:47 · 778 阅读 · 0 评论 -
MR工作原理
本文介绍了MapReduce任务在yarn上的是怎么运行起来的,以及mr shuffle流程和MR的推测执行机制原创 2022-10-07 20:55:01 · 1429 阅读 · 0 评论 -
9 HadoopHA
一、背景 在Hadoop集群中,NameNode是唯一负责存储元数据到数据块的映射的,如果NameNode挂掉,那么hdfs将不能使用,所以为了保证集群的可靠性,Hadoop2.0中提出了高可用的概念二、原理2.1 高可用原理设置两个NameNode,一个正常工作(active),另一个充当active的热备(standby)active的namenode把edits的修改写入到日志管理器 (QJM,quorum journal manager) 中standby的namenode原创 2020-08-17 21:49:08 · 179 阅读 · 0 评论 -
8 Zookeeper
一、Zookeeper是什么Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的框架;Zookeeper从设计模式的角度理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接收观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经注册的那些观察者做出相应的反应。Zookeeper = 文件系统 + 通知机制二、Zookeeper特点Zookeeper是由一个leader和多个follower组成的集群;集群中只要有半原创 2020-08-17 21:47:09 · 287 阅读 · 0 评论 -
6 Hive
一、Hive 是什么 Hive 是构建在 Hadoop 之上的数据仓库平台;它通过 SQL 解析引擎把 SQL 语句转译成 MapReduce 作业,并在 Hadoop 上运行;Hive 表是 HDFS 的文件目录,一个表对应一个目录名,如果有分区,则分区值对应子目录。二、Hive 架构解释图中元素:1、核心部分 1)解析器:将SQL字符串转换成抽象语法树AST,这一步一般用第三方工具完成;对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误; 2)编译器:把AST翻译原创 2020-08-17 21:40:39 · 310 阅读 · 0 评论 -
5 YARN
一、YANR 架构图中一共有 2 大块元素,一块是 ResourceManager,一块是 NodeManager 。 ResourceManager: 可以看到,ResourceManager 是负责资源的管理与调度,再加上一个启动 ApplicationMaster,注意:这里的调度是纯粹的资源调度,不涉及任务调度,任务调度应该是在 AM 中完成的。 **NodeManager:**NodeManager 是单台节点上的资源和任务管理器,在 NodeManager 上面完成计算功能。 *原创 2020-05-19 14:53:37 · 264 阅读 · 0 评论 -
解决Hive运行hql提示Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
遇到的问题Hive在运行show databases时,报了如下错误:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient直接把错误原因复制到百度和google搜出来的解决方案都没有解决问题,后来查看hive日志,发现真实错误其实是:Caused by: org.apache....原创 2019-12-12 19:39:11 · 9060 阅读 · 5 评论 -
7 Hbase 概述
一、什么是 Hbase Hbase 是一个构建在 Hadoop 之上的高可用、高性能、多版本的分布式 NOSQL 数据库。二、Hbase 的特点2.1、与 hdfs 对比 Hbase 是构建在 Hadoop 之上的,Hadoop 不支持随即写,但 Hbase 支持。2.2 、与传统数据库的比较: 1、传统数据库无法存储很大量的数据,但 Hbase 可以通过增加节点的方式来存储海...原创 2020-03-27 08:16:33 · 253 阅读 · 0 评论 -
6 Hive 概述
一、Hive 是什么 Hive 是构建在 Hadoop 之上的数据仓库平台;它通过 SQL 解析引擎把 SQL 语句转译成 MapReduce 作业,并在 Hadoop 上运行;Hive 表是 HDFS 的文件目录,一个表对应一个目录名,如果有分区,则分区值对应子目录。二、Hive 架构解释图中元素:1、解析器 1)译器:完成 HQL 语句从词法分析、语法分析、编译、优化以及执行计...原创 2020-03-27 08:12:14 · 193 阅读 · 0 评论 -
4 MapReduce 工作流程详解
MapReduce 工作流程详解一、MapTask 的工作机制总体可概括为如下流程:1、client 向集群提交任务,指定了分片个数 n2、集群启动 n 个 maptask3、maptask 通过 RecordReader 读取数据(k,v),v 代表一行一行的数据4、读到数据后 mapper 对一行一行的数据进行逻辑处理5、把处理后的数据分装成新的 (k1, v1),通过 Co...原创 2020-03-27 07:57:50 · 235 阅读 · 0 评论 -
3 HDFS
文章目录一、HDFS 的产生背景及定义1.1 产生背景1.2 定义二、HDFS 优缺点2.1 优点2.2 缺点三、HDFS 架构四、HDFS 块(Block)五、HDFS 读写数据流程5.1 写数据的流程5.2 读数据的流程5.2 网络拓扑——节点距离计算5.2 副本策略四、NameNode 与 SecondaryNameNode 工作机制4.1 引入4.2 工作流程详解五、DataNode 工作...原创 2020-03-14 18:33:44 · 640 阅读 · 1 评论