
Hadoop
leonardy
这个作者很懒,什么都没留下…
展开
-
Hadoop之YARN
Hadoop之YARNYARN的设计初衷YARN的构成YARN工作机制YARN的设计初衷The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is t...原创 2020-01-16 12:00:30 · 197 阅读 · 0 评论 -
MapReduce框架原理之(五)数据压缩
MapReduce框架原理之数据压缩1. MapReduce中数据压缩的作用2. MapReduce支持的压缩编码2.1 压缩格式2.2 对应的编码/解码器2.3压缩性能的比较1. MapReduce中数据压缩的作用压缩技术能够有效减少底层存储系统(HDFS)读写字节数,节省存储空间.压缩可以减少网络和磁盘I/O,提高MapReduce程序运行速度.虽然压缩节省了磁盘空间,减少了网络和...原创 2020-01-15 13:20:34 · 379 阅读 · 0 评论 -
MapReduce框架原理之(四)Join
MapReduce框架原理之JoinJoin1 Reduce Join2 Map JoinJoin类似SQL的Join,将1张以上的表按照某种关系,将数据进行格式化输出.1 Reduce JoinReduce Join工作原理Map端的主要工作:为来自不同表或文件的key/value对,添加标识加以区别不同的数据来源,然后用join字段作为排序和分组条件(本例是pid),其余部分和标识...原创 2020-01-13 10:07:16 · 377 阅读 · 0 评论 -
MapReduce框架原理之(三)OutputFormat数据输出
Hadoop之MapReduce框架原理1. InputFormat数据输入1.1 切片与MapTask并行度决定机制1.2 FileInputFormat切片源码解析1.3 CombineTextInputFormat切片机制1. InputFormat数据输入1.1 切片与MapTask并行度决定机制MapTask并行度决定机制(1)数据块:Block,在HDFS中,将数据物理上分...原创 2020-01-12 15:13:04 · 346 阅读 · 0 评论 -
MapReduce框架原理之(二)MapReduce工作流程
MapReduce框架原理之MapReduce工作流程MapReduce工作流程1. 流程图2. 流程详解3. shuffle机制3.1 MapTask中:3.2 ReduceTask中:3.3 Partition分区:3.4 WritableComParable排序3.5 Combiner合并3.6 GroupingComparator分组(辅助排序)MapReduce工作流程1. 流程图...原创 2020-01-12 15:06:31 · 680 阅读 · 0 评论 -
MapReduce框架原理之(一)InputFormat数据输入
MapReduce框架原理之InputFormat数据输入1 切片与MapTask并行度决定机制2 FileInputFormat切片源码解析3 CombineTextInputFormat切片机制4 自定义InputFormat4.1 自定义InputFormat演示4.2 代码实现1 切片与MapTask并行度决定机制MapTask并行度决定机制(1)数据块:Block,在HDFS中,...原创 2020-01-12 14:59:26 · 388 阅读 · 0 评论 -
Hadoop之序列化
Hadoop之序列化1.序列化概述1.1 什么是序列化1.2 为什么要序列化1.3 为什么不使用Java的序列化(Serializable)1.4 Hadoop序列化特点2.自定义Bean对象,实现序列化接口(Writable)3.序列化样例1.序列化概述1.1 什么是序列化序列化:就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于数据持久化到磁盘和网络传输.反序列化:就是将...原创 2020-01-07 13:54:04 · 334 阅读 · 0 评论 -
Hadoop之MapReduce概述
Hadoop之MapReduce1.MapReduce定义2.MapReduce优缺点2.1优点2.2缺点3.MapReduce核心编程思想4.MapReduce进程5.MapReduce样例WordCount源码分析5.1常用数据序列化类型6.MapReduce编程规范7.WordCount实操1.MapReduce定义MapReduce是`一个分布式运算程序的编程框架`,是用户开发"基于H...原创 2020-01-07 11:33:09 · 308 阅读 · 0 评论 -
Windows下编译Hadoop
Window下编译Hadoophadoop原码下载及解压根据文档,下载并配置需要的内容:1.JDK2.Maven3.ProtocolBuffer 2.5.0hadoop原码下载及解压由于一直都在用2.8.5,所以这里以此版本为例,下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.5/将下载后的原码解压至一个比较简洁...原创 2020-01-04 18:52:59 · 990 阅读 · 0 评论 -
Docker-hadoop集群搭建
Docker-hadoop集群搭建事前准备docker容器中进行配置hadoop集群配置事前准备docker安装docker下载centos镜像文件(版本看个人喜好,推荐centos7+,centos7之前对docker的支持不完全,这里不做深究,毕竟重点是hadoop集群的搭建)sudo docker pull centos:centos7docker容器中进行配置首先启动一个...原创 2020-01-12 12:28:01 · 503 阅读 · 2 评论 -
Hadoop学习之-Flume
Apache Flume关于Flume1.安装Flume2.Flume样例3.事务和可靠性4.HDFS sink关于FlumeHadoop的宗旨是处理大型数据集。通常,我们假设这些数据已经存储在HDFS中,但是如果数据不再HDFS怎么办?设计Flume的宗旨是向Hadoop批量导入基于事件的海量数据。Flueme通常用来向Hadoop导入日志文件。1.安装Flume①首先下载并解压Ap...原创 2019-11-15 10:20:37 · 286 阅读 · 0 评论 -
Hadoop学习之-Avro
Apache Avro关于Avro1.Avro的特点2.Avro数据类型2-1.基本数据类型2-2.Parquet的逻辑类型关于Avro2010年Google公司发表了一篇名为Dremel: Interactive Analysis of Web-Scale Datasets的论文。于是Parquet的缔造者们(Twitter和Cloudera的工程师),开发出了Parquet。1.Avr...原创 2019-11-15 10:19:59 · 329 阅读 · 0 评论 -
Hadoop学习之-Parquet
Apache Avro关于AvroAvro的特点Avro数据类型和架构合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入关于Avr...原创 2019-11-15 10:20:15 · 2656 阅读 · 0 评论 -
Linux eclipse hadoop环境配置
一、前提要求:hadoop,具体配置可以参考我的另一篇文章。https://mp.youkuaiyun.com/postedit/88987414二、环境搭建配置方法及插件下载链接如下:https://github.com/winghc/hadoop2x-eclipse-plugin1、下载并解压插件包(git clone https://github.com/winghc/h...原创 2019-11-15 10:19:43 · 569 阅读 · 0 评论 -
Hadoop------Hadoop单机模式与伪分布式(CentOS7)
一.事先准备1.jdk①jdk的安装:由于hadoop 不同版需要jdk版本的支持不同,所以根据自身情况选择jdk版本。(hadoop2.6.x版本需要jdk1.6+,hadoop2.7.x版本需要jdk1.7+,hadoop2.8.x版本需要jdk1.8+)rpm -qa | grep java 或者 yum list installed | grep java查...原创 2019-11-15 10:16:24 · 313 阅读 · 0 评论 -
Hadoop 2------Hadoop原理概述
1.1 The Hadoop EnvironmentDistributed computation:(分布式计算)The computation tire uses a framework called MapReduce.Distributed storage:(分布式存储)A distributed filesystem called HDFS,provides storage....原创 2019-11-15 10:19:27 · 180 阅读 · 0 评论