
Hadoop
gdgylpc
数据开发工程师一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop简要介绍
Hadoop简要介绍 Hadoop前言 大数据 Hadoop 是什么 有什么优势 Hadoop1.x 和 hadoop2.x的区别 大数据 大数据指在规定的时间内使用常规软件无法处理的数据集!它具有数据集通常有以下特点: 海量:数据量很大,以往的传统数据库根本存不下,存下来也难以处理 高增长率:大数据的增长速度极快,双十一一天的数据就无限大。 形式多样:除了结构化数据,还有非结构...原创 2019-12-09 08:39:13 · 206 阅读 · 0 评论 -
Hadoop核心架构简述
Hadoop核心架构简述 Hadoop核心架构简述 HDFS Namenode(1个) Datanode(n个) Yarn ResourceManager(1个) NodeManager(n个) MapReduce Map阶段 Reduce阶段 HDFS HDFS负责大数据文件的读写! HDFS的运行需要由若干不同角色的进程一起启动后组成! HDFS由namenode和...原创 2019-12-09 14:29:07 · 847 阅读 · 0 评论 -
HDFS
HDFS HDFS 什么是HDFS HDFS文件的块 为什么是128m HDFS的Shell操作 HDFS的java程序进行操作 HDFS初始操作和结束操作 HDFS文件上传和下载 通过流进行可操作的文件上传和下载 HDFS文件信息的查看 HDFS块信息的处理 练习,HDFS的分块下载 什么是HDFS 它是一个分布式文件系统,适合一次写入多次读出。 不支持文件的随机读写,支持...原创 2019-12-09 16:10:29 · 411 阅读 · 0 评论 -
HDFS的数据流
HDFS的数据流 HDFS的数据流 HDFS的数据上传(写流程) HDFS的数据下载(读流程) HDFS的数据流包括上传和下载的数据流 HDFS的数据上传(写流程) 客户端创建一个Distributed File System 对象,这个对象向配置中的NameNode发起请求上传的请求 NameNode处理请求,检查权限,是否可以上传等,如果可以上传回复一个消息。 客户端根据配置文件按...原创 2019-12-09 17:57:43 · 175 阅读 · 0 评论 -
HDFS三兄弟(NN,DN,2NN)
HDFS三兄弟(NN,DN,2NN) HDFS三兄弟(NN,DN,2NN) NN NN的持久化 NN的启动 查看edits和fsimage文件 NN和DN进行通信 NN的多目录配置 2NN 2NN的辅助作用 使用2NN对NN进行恢复 DN DN的启动 服役新节点 白名单配置 黑名单配置 DN的多目录机制 HDFS2.X新特性 集群复制 归档 三兄弟叫起来比较顺口,...原创 2019-12-09 19:48:43 · 740 阅读 · 0 评论 -
Hadoop优化
Hadoop优化 map端数据倾斜,输入文件有不可分割的压缩包 reduce端数据倾斜:分区后某个区的数据过多 输入 在执行MR之前。提前将小文件合并,压缩成可切片的格式 使用CombineTextInputFormat map阶段 减少溢写次数:通过调整缓冲区的大小及sort.spill.percent(溢写阈值)参数值,增大触发spill的内存上限、 减少合并次数:调整io.sort.f...原创 2020-03-15 01:11:58 · 235 阅读 · 0 评论 -
1、hadoop前言
Hadoop前言 Hadoop前言 大数据 Hadoop 是什么 有什么优势 Hadoop1.x 和 hadoop2.x的区别 大数据 大数据指在规定的时间内使用常规软件无法处理的数据集!它具有数据集通常有以下特点: 海量:数据量很大,以往的传统数据库根本存不下,存下来也难以处理 高增长率:大数据的增长速度极快,双十一一天的数据就无限大。 形式多样:除了结构化数据,还有非结构化数...原创 2019-11-18 10:46:47 · 296 阅读 · 0 评论 -
2、hadoop核心架构简述
Hadoop核心架构简述 Hadoop核心架构简述 HDFS Namenode(1个) Datanode(n个) Yarn ResourceManager(1个) NodeManager(n个) MapReduce Map阶段 Reduce阶段 HDFS HDFS负责大数据文件的读写! HDFS的运行需要由若干不同角色的进程一起启动后组成! HDFS由namenode和...原创 2019-11-18 10:46:47 · 318 阅读 · 0 评论 -
3、Hadoop安装
Hadoop的安装 Hadoop的安装 安装前准备 软件的安装和环境变量的配置 软件的安装 环境变量的配置 示例程序的运行 走过的坑解决 在对Hadoop有大概的了解后就要开始Hadoop的安装了,Hadoop安装有本地模式,单机分布式模式和多机分布式模式。 学一个新事物讲究一个由易到难,但是对复习而言,直接复习最难的效率最高,因此本篇文章直接开始多机分布式的安装。且使用的虚拟机为...原创 2019-11-18 10:46:47 · 74 阅读 · 0 评论 -
4、HDFS文件操作
HDFS HDFS 什么是HDFS HDFS文件的块 为什么是128m HDFS的Shell操作 HDFS的java程序进行操作 HDFS初始操作和结束操作 HDFS文件上传和下载 通过流进行可操作的文件上传和下载 HDFS文件信息的查看 HDFS块信息的处理 练习,HDFS的分块下载 什么是HDFS 它是一个分布式文件系统,适合一次写入多次读出。 不支持文件的随机读写,支持...原创 2019-11-18 10:46:47 · 219 阅读 · 0 评论 -
5、HDFS的数据流
HDFS的数据流 HDFS的数据流 HDFS的数据上传(写流程) HDFS的数据下载(读流程) HDFS的数据流包括上传和下载的数据流 HDFS的数据上传(写流程) 客户端创建一个Distributed File System 对象,这个对象向配置中的NameNode发起请求上传的请求 NameNode处理请求,检查权限,是否可以上传等,如果可以上传回复一个消息。 客户端根据配置文件按...原创 2019-11-18 10:46:47 · 111 阅读 · 0 评论 -
6、HDFS的三兄弟
HDFS三兄弟(NN,DN,2NN) HDFS三兄弟(NN,DN,2NN) NN NN的持久化 NN的启动 查看edits和fsimage文件 NN和DN进行通信 NN的多目录配置 2NN 2NN的辅助作用 使用2NN对NN进行恢复 DN DN的启动 服役新节点 白名单配置 黑名单配置 DN的多目录机制 HDFS2.X新特性 集群复制 归档 三兄弟叫起来比较顺口,...原创 2019-11-18 10:46:47 · 113 阅读 · 0 评论 -
7、MapReduce基本流程
MapReduce MapReduce MapReduce图解 MapTask Read Map Sort ReduceTask Copy Sort and Merge Reduce&Write 一个简单的wordCount mapper reducer Driver MapReduce图解 如图是MapReduce的一个运行示例,从中可以看出MapReduc...原创 2019-11-18 11:59:45 · 183 阅读 · 0 评论 -
8、FileInputFormat
InputFormat InputFormat FileInputFormat切片分析 FileInputFormat默认切片策略 TextInputFormat KeyValueInputFormat NLineInputFormat CombineTextInputFormat 自定义类继承FileInputFormat FileInputFormat切片分析 FileInpu...原创 2019-11-19 03:25:17 · 319 阅读 · 0 评论 -
9、wordCount本地模式源码分析
wordcount本地运行模式源码分析 提交流程 // 判断state状态,如果在运行wait之后进行conf的设置时会出现running的错误 if (state == JobState.DEFINE) { submit(); } @SuppressWarnings("unchecked") public void init(MapOutp...原创 2019-11-19 11:28:38 · 98 阅读 · 0 评论 -
11、排序
排序 排序 Shuffle阶段的排序 Shuffle阶段的排序 排序发生再shuffle阶段,只有有shuffle阶段,数据才有排序。排序是框架自动进行的,用户要做的是就是提供一个排序使用的排序器(默认使用字典排序)。Hadoop提供了一些实现WriteComparable的对象封装数据. public RawComparator getOutputKeyComparator()...原创 2019-11-19 13:29:26 · 101 阅读 · 0 评论 -
12、分区
分区 分区 分区数 分区对象(Partitioner) 分区的位置 分区数 分区数是用户自定义的,分区数即ReduceTask得数,由numPartitions=conf.getNumReduceTasks();确定,默认为1,如果设置为0,数据在经过Mapper之后将会直接输出。 // get an output object if (job.getNumReduceTas...原创 2019-11-19 13:29:26 · 161 阅读 · 0 评论 -
13、combiner
Combiner Combiner的本质就是一个Reducer,作用就是合并,和Reducer的区别在于两者运行的阶段不同,Combiner运行再shuffle阶段,Reducer在Reducer阶段运行.它的设计就是为了优化shuffle流程,节省每次溢写 的磁盘IO和网络IO.\ Combiner将可能发生三次 在Maptask之中,Combiner在每次溢写之前,对缓冲区中的数据进行合并,...原创 2019-11-19 13:29:26 · 235 阅读 · 0 评论 -
14、ReduceTask分析
ReduceTask分析 Copy 从多个MapTask处拉取同一个区的所有文件. 归并排序 将这些文件归并排序(之前的在MapTask中已经排好序了) Reducer一次读取一组 一次读取一组的方法是调用GroupingComparator(Key,KeyNext);如果返回0则认为Key和KeyNext为一组, 默认的GroupingCompartor为排序用的Comparator,但是在许多...原创 2019-11-19 13:29:26 · 165 阅读 · 0 评论 -
15、计数器
计数器 计数器是一种调试程序的手段.MapReduce允许用户编写程序自定义计数器,当程序执行到计数器时,计数器加一. Mapper程序 context.getCounter("组名","名字").increment(1); ...原创 2019-11-19 13:29:26 · 244 阅读 · 0 评论 -
16、HadoopJoin的实现
HadoopJoin的实现 Join操作可以将两个或多个文件组合起来,组合的两张表之间的某些属性具有相关关系。在MapReduce中,可以通过MapJoin和ReduceJoin实现类似Join的操作。 ReduceJoin ReduceJoin的Join操作发生在Reduce端,而Map只需实现文件的读取。 将要进行Join的数据全部再Reducer中完成Join。 在Mapper封装数据,为...原创 2019-11-22 12:42:45 · 194 阅读 · 0 评论 -
17、Hadoop压缩相关
Hadoop压缩 概述 压缩的实质是用时间换空间。Hadoop中在处理大数据时,会遇到I/O和网络传输资源不够的情况,此时可以通过压缩的方法通过增加计算减少IO。 因此是否使用压缩遵循运算密集,不用压缩,IO密集使用压缩,当然,除了压缩以外combiner也能减少磁盘IO; Hadoop框架在运行过程中,能够自动识别文件的扩展名,判断文件采用的压缩格式,自动压缩和解压缩,在有些压缩格式下,采用压缩...原创 2019-11-22 12:42:51 · 100 阅读 · 0 评论 -
18、Hadoop调优相关
Hadoop调优相关 针对MR的优化,主要是针对MR在运行期间频繁的磁盘IO和网络IO的优化为主题,进行优化! 使用压缩 条件允许,可以使用Combiner 增大MapTask中缓冲区的大小和溢写的阀值 增大合并时一次性合并的片段数 调大ReduceTask端shuffle进程使用的内存比例 开启MapTask和ReduceTask共存 针对小文件的优化,围绕将多个小文件合并,节省NN中的内存...原创 2019-11-22 12:42:51 · 93 阅读 · 0 评论 -
20、多个job串联
多个Job串联 //基于job构建ControlledJob ControlledJob controlledJob1 = new ControlledJob(job1.getConfiguration()); ControlledJob controlledJob2 = new ControlledJob(job2.getConfiguration()); contr...原创 2019-11-22 12:44:56 · 188 阅读 · 0 评论 -
21、Hadoop-HA
Hadoop-HA HA(High Available),即高可用(7*24小时不中断服务),在Hadoop中,主要是要保证NN和RM的高可用。因此HA可以分为HDFS的HA和YARN的HA HDFS的HA HDFS HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将...原创 2019-11-23 14:24:11 · 93 阅读 · 0 评论 -
22、Yarn
Yarn Yarn的基本架构和工作流程 由前面所说,Yarn由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。四个组件的作用如下 RM 处理客户端的请求 和NM通信,监控其运行状况 启动或监控ApplicationMaster 负责整合集群计算资源的分配和调度 NM 管理单个节点上的资源 负责处理来自RM上的请求 处理...原创 2019-11-25 12:54:52 · 230 阅读 · 1 评论