
Hadoop
gdgylpc
数据开发工程师一枚
展开
-
Hadoop简要介绍
Hadoop简要介绍Hadoop前言大数据Hadoop是什么有什么优势Hadoop1.x 和 hadoop2.x的区别大数据大数据指在规定的时间内使用常规软件无法处理的数据集!它具有数据集通常有以下特点:海量:数据量很大,以往的传统数据库根本存不下,存下来也难以处理高增长率:大数据的增长速度极快,双十一一天的数据就无限大。形式多样:除了结构化数据,还有非结构...原创 2019-12-09 08:39:13 · 195 阅读 · 0 评论 -
Hadoop核心架构简述
Hadoop核心架构简述Hadoop核心架构简述HDFSNamenode(1个)Datanode(n个)YarnResourceManager(1个)NodeManager(n个)MapReduceMap阶段Reduce阶段HDFSHDFS负责大数据文件的读写!HDFS的运行需要由若干不同角色的进程一起启动后组成!HDFS由namenode和...原创 2019-12-09 14:29:07 · 832 阅读 · 0 评论 -
HDFS
HDFSHDFS什么是HDFSHDFS文件的块为什么是128mHDFS的Shell操作HDFS的java程序进行操作HDFS初始操作和结束操作HDFS文件上传和下载通过流进行可操作的文件上传和下载HDFS文件信息的查看HDFS块信息的处理练习,HDFS的分块下载什么是HDFS它是一个分布式文件系统,适合一次写入多次读出。不支持文件的随机读写,支持...原创 2019-12-09 16:10:29 · 390 阅读 · 0 评论 -
HDFS的数据流
HDFS的数据流HDFS的数据流HDFS的数据上传(写流程)HDFS的数据下载(读流程)HDFS的数据流包括上传和下载的数据流HDFS的数据上传(写流程)客户端创建一个Distributed File System 对象,这个对象向配置中的NameNode发起请求上传的请求NameNode处理请求,检查权限,是否可以上传等,如果可以上传回复一个消息。客户端根据配置文件按...原创 2019-12-09 17:57:43 · 160 阅读 · 0 评论 -
HDFS三兄弟(NN,DN,2NN)
HDFS三兄弟(NN,DN,2NN)HDFS三兄弟(NN,DN,2NN)NNNN的持久化NN的启动查看edits和fsimage文件NN和DN进行通信NN的多目录配置2NN2NN的辅助作用使用2NN对NN进行恢复DNDN的启动服役新节点白名单配置黑名单配置DN的多目录机制HDFS2.X新特性集群复制归档三兄弟叫起来比较顺口,...原创 2019-12-09 19:48:43 · 718 阅读 · 0 评论 -
Hadoop优化
Hadoop优化map端数据倾斜,输入文件有不可分割的压缩包reduce端数据倾斜:分区后某个区的数据过多输入在执行MR之前。提前将小文件合并,压缩成可切片的格式使用CombineTextInputFormatmap阶段减少溢写次数:通过调整缓冲区的大小及sort.spill.percent(溢写阈值)参数值,增大触发spill的内存上限、减少合并次数:调整io.sort.f...原创 2020-03-15 01:11:58 · 218 阅读 · 0 评论 -
1、hadoop前言
Hadoop前言Hadoop前言大数据Hadoop是什么有什么优势Hadoop1.x 和 hadoop2.x的区别大数据大数据指在规定的时间内使用常规软件无法处理的数据集!它具有数据集通常有以下特点:海量:数据量很大,以往的传统数据库根本存不下,存下来也难以处理高增长率:大数据的增长速度极快,双十一一天的数据就无限大。形式多样:除了结构化数据,还有非结构化数...原创 2019-11-18 10:46:47 · 282 阅读 · 0 评论 -
2、hadoop核心架构简述
Hadoop核心架构简述Hadoop核心架构简述HDFSNamenode(1个)Datanode(n个)YarnResourceManager(1个)NodeManager(n个)MapReduceMap阶段Reduce阶段HDFSHDFS负责大数据文件的读写!HDFS的运行需要由若干不同角色的进程一起启动后组成!HDFS由namenode和...原创 2019-11-18 10:46:47 · 303 阅读 · 0 评论 -
3、Hadoop安装
Hadoop的安装Hadoop的安装安装前准备软件的安装和环境变量的配置软件的安装环境变量的配置示例程序的运行走过的坑解决在对Hadoop有大概的了解后就要开始Hadoop的安装了,Hadoop安装有本地模式,单机分布式模式和多机分布式模式。学一个新事物讲究一个由易到难,但是对复习而言,直接复习最难的效率最高,因此本篇文章直接开始多机分布式的安装。且使用的虚拟机为...原创 2019-11-18 10:46:47 · 62 阅读 · 0 评论 -
4、HDFS文件操作
HDFSHDFS什么是HDFSHDFS文件的块为什么是128mHDFS的Shell操作HDFS的java程序进行操作HDFS初始操作和结束操作HDFS文件上传和下载通过流进行可操作的文件上传和下载HDFS文件信息的查看HDFS块信息的处理练习,HDFS的分块下载什么是HDFS它是一个分布式文件系统,适合一次写入多次读出。不支持文件的随机读写,支持...原创 2019-11-18 10:46:47 · 200 阅读 · 0 评论 -
5、HDFS的数据流
HDFS的数据流HDFS的数据流HDFS的数据上传(写流程)HDFS的数据下载(读流程)HDFS的数据流包括上传和下载的数据流HDFS的数据上传(写流程)客户端创建一个Distributed File System 对象,这个对象向配置中的NameNode发起请求上传的请求NameNode处理请求,检查权限,是否可以上传等,如果可以上传回复一个消息。客户端根据配置文件按...原创 2019-11-18 10:46:47 · 101 阅读 · 0 评论 -
6、HDFS的三兄弟
HDFS三兄弟(NN,DN,2NN)HDFS三兄弟(NN,DN,2NN)NNNN的持久化NN的启动查看edits和fsimage文件NN和DN进行通信NN的多目录配置2NN2NN的辅助作用使用2NN对NN进行恢复DNDN的启动服役新节点白名单配置黑名单配置DN的多目录机制HDFS2.X新特性集群复制归档三兄弟叫起来比较顺口,...原创 2019-11-18 10:46:47 · 107 阅读 · 0 评论 -
7、MapReduce基本流程
MapReduceMapReduceMapReduce图解MapTaskReadMapSortReduceTaskCopySort and MergeReduce&Write一个简单的wordCountmapperreducerDriverMapReduce图解如图是MapReduce的一个运行示例,从中可以看出MapReduc...原创 2019-11-18 11:59:45 · 169 阅读 · 0 评论 -
8、FileInputFormat
InputFormatInputFormatFileInputFormat切片分析FileInputFormat默认切片策略TextInputFormatKeyValueInputFormatNLineInputFormatCombineTextInputFormat自定义类继承FileInputFormatFileInputFormat切片分析FileInpu...原创 2019-11-19 03:25:17 · 307 阅读 · 0 评论 -
9、wordCount本地模式源码分析
wordcount本地运行模式源码分析提交流程 // 判断state状态,如果在运行wait之后进行conf的设置时会出现running的错误 if (state == JobState.DEFINE) { submit(); }@SuppressWarnings("unchecked") public void init(MapOutp...原创 2019-11-19 11:28:38 · 90 阅读 · 0 评论 -
11、排序
排序排序Shuffle阶段的排序Shuffle阶段的排序排序发生再shuffle阶段,只有有shuffle阶段,数据才有排序。排序是框架自动进行的,用户要做的是就是提供一个排序使用的排序器(默认使用字典排序)。Hadoop提供了一些实现WriteComparable的对象封装数据. public RawComparator getOutputKeyComparator()...原创 2019-11-19 13:29:26 · 92 阅读 · 0 评论 -
12、分区
分区分区分区数分区对象(Partitioner)分区的位置分区数分区数是用户自定义的,分区数即ReduceTask得数,由numPartitions=conf.getNumReduceTasks();确定,默认为1,如果设置为0,数据在经过Mapper之后将会直接输出。 // get an output object if (job.getNumReduceTas...原创 2019-11-19 13:29:26 · 148 阅读 · 0 评论 -
13、combiner
CombinerCombiner的本质就是一个Reducer,作用就是合并,和Reducer的区别在于两者运行的阶段不同,Combiner运行再shuffle阶段,Reducer在Reducer阶段运行.它的设计就是为了优化shuffle流程,节省每次溢写 的磁盘IO和网络IO.\Combiner将可能发生三次在Maptask之中,Combiner在每次溢写之前,对缓冲区中的数据进行合并,...原创 2019-11-19 13:29:26 · 224 阅读 · 0 评论 -
14、ReduceTask分析
ReduceTask分析Copy从多个MapTask处拉取同一个区的所有文件.归并排序将这些文件归并排序(之前的在MapTask中已经排好序了)Reducer一次读取一组一次读取一组的方法是调用GroupingComparator(Key,KeyNext);如果返回0则认为Key和KeyNext为一组,默认的GroupingCompartor为排序用的Comparator,但是在许多...原创 2019-11-19 13:29:26 · 155 阅读 · 0 评论 -
15、计数器
计数器计数器是一种调试程序的手段.MapReduce允许用户编写程序自定义计数器,当程序执行到计数器时,计数器加一.Mapper程序context.getCounter("组名","名字").increment(1);...原创 2019-11-19 13:29:26 · 234 阅读 · 0 评论 -
16、HadoopJoin的实现
HadoopJoin的实现Join操作可以将两个或多个文件组合起来,组合的两张表之间的某些属性具有相关关系。在MapReduce中,可以通过MapJoin和ReduceJoin实现类似Join的操作。ReduceJoinReduceJoin的Join操作发生在Reduce端,而Map只需实现文件的读取。将要进行Join的数据全部再Reducer中完成Join。在Mapper封装数据,为...原创 2019-11-22 12:42:45 · 183 阅读 · 0 评论 -
17、Hadoop压缩相关
Hadoop压缩概述压缩的实质是用时间换空间。Hadoop中在处理大数据时,会遇到I/O和网络传输资源不够的情况,此时可以通过压缩的方法通过增加计算减少IO。因此是否使用压缩遵循运算密集,不用压缩,IO密集使用压缩,当然,除了压缩以外combiner也能减少磁盘IO;Hadoop框架在运行过程中,能够自动识别文件的扩展名,判断文件采用的压缩格式,自动压缩和解压缩,在有些压缩格式下,采用压缩...原创 2019-11-22 12:42:51 · 94 阅读 · 0 评论 -
18、Hadoop调优相关
Hadoop调优相关针对MR的优化,主要是针对MR在运行期间频繁的磁盘IO和网络IO的优化为主题,进行优化!使用压缩条件允许,可以使用Combiner增大MapTask中缓冲区的大小和溢写的阀值增大合并时一次性合并的片段数调大ReduceTask端shuffle进程使用的内存比例开启MapTask和ReduceTask共存针对小文件的优化,围绕将多个小文件合并,节省NN中的内存...原创 2019-11-22 12:42:51 · 81 阅读 · 0 评论 -
20、多个job串联
多个Job串联 //基于job构建ControlledJob ControlledJob controlledJob1 = new ControlledJob(job1.getConfiguration()); ControlledJob controlledJob2 = new ControlledJob(job2.getConfiguration()); contr...原创 2019-11-22 12:44:56 · 181 阅读 · 0 评论 -
21、Hadoop-HA
Hadoop-HAHA(High Available),即高可用(7*24小时不中断服务),在Hadoop中,主要是要保证NN和RM的高可用。因此HA可以分为HDFS的HA和YARN的HAHDFS的HAHDFS HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可通过此种方式将...原创 2019-11-23 14:24:11 · 86 阅读 · 0 评论 -
22、Yarn
YarnYarn的基本架构和工作流程由前面所说,Yarn由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。四个组件的作用如下RM处理客户端的请求和NM通信,监控其运行状况启动或监控ApplicationMaster负责整合集群计算资源的分配和调度NM管理单个节点上的资源负责处理来自RM上的请求处理...原创 2019-11-25 12:54:52 · 201 阅读 · 1 评论