
Hadoop
Sigmund_Y
此人很懒,什么都没有写,是的!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
18Hadoop大合集
此次采用问题加回答的方式。 Hadoop1.x和Hadoop2.x的区别 Hadoop1.0即第一代Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分组成。 Hadoop2.0即第二代Hadoop,...原创 2020-04-20 23:28:17 · 297 阅读 · 0 评论 -
6HDFS的读写流程及多线程写问题
1、HDFS之block package chunk 了解hdfs的读写流程,首先要了解block、package、chunk的概念。 1、block 这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一个单位。 2、package packet是第二大的单...原创 2020-04-16 22:27:38 · 2193 阅读 · 0 评论 -
5Hadoop的shuffle过程
首先上官方图: 然后做一个简单的流程解释(以wordcount为例): 里面涉及到的点有环形缓冲区 详细说明: 以wordcount为例,假设有5个map和3个reduce: map阶段 1、在map task执行时,它的输入数据来源于HDFS的block,当然在MapReduce概念中,map task只读取split。Split与block的对应关系可能是多对一,默认是一对一。 2、在经过...原创 2020-04-15 23:17:35 · 198 阅读 · 0 评论 -
4Hadoop集群添加删除节点及集群balance
Hadoop集群添加删除节点有两种方式:静态和动态 本篇中默认新添加的节点已经配置好免密登陆等其他相关的基础设置 一、静态方式 静态方式需要停止NameNode 1.停止namenode 2.修改slaves文件,并更新到各个节点 3.启动namenode 4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要) 二、动态方式 1.首先配置...原创 2020-04-15 22:46:57 · 327 阅读 · 0 评论 -
3Hadoop的HA机制及原理解析
一、hadoop 1.x和2.x架构图 1、架构图 hadoop2.x通过引入双NameNode架构,同时借助共享存储系统 Quorum Journal Manager QJM来进行元数据的同步,解决了1.x中NameNode的单点故障问题。 2、hadoop2.x元数据 Hadoop的元数据主要作用是维护HDFS文件系统中文件和目录相关信息。元数据的存储形式主要有3类:内存镜像、磁盘镜像(F...原创 2020-04-15 22:07:17 · 371 阅读 · 0 评论 -
2hadoop的四大机制(心跳、安全模式、机架策略、负载均衡)
hadoop的心跳机制 我们知道namenode是集群的大哥,负责集群上任务的分工,那如果要进行分工,首先一点就是要知道各个从节点的存活状态,你想想如果连哪个从节点是否存活都不知道,又该如何分配任务呢?可是,就有个疑问了,他是怎么知道各个从节点的存活状态的呢?那就是通过DataNode定期的向namenode发送心跳报告,哎?对了,这就是心跳机制。 DataNode默认会每隔3秒向namenod...原创 2020-04-10 23:38:19 · 775 阅读 · 0 评论 -
1HDFS基本shell操作
常见的hdfs命令 hdfs命令需要前缀hdfs dfs xx ,等同于 hadoop fs xx,选择自己喜欢的方式就好。 命令概览 递归查看文件 hadoop fs -ls -R /path 创建多级目录 hadoop fs -mkdir -p /abc/mm/ff 同时上传多个文件 hadoop fs -put abc1.txt abc2.txt /abc 这样就同时把abc1.tx...原创 2020-04-10 22:48:46 · 189 阅读 · 0 评论