
Hadoop
文章平均质量分 78
分享Hadoop学习经历,了解Hadoop组件,开启大数据工程师之旅
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
10天Hadoop快速突击(2)——MapReduce计算模型详解
MapReduce计算模型详解为什么要用MapReduce? 非常简单、易于实现且扩展性强。MapReduce适合处理海量数据,它会被多台主机同时处理,通常会有较快的速度。MapReduce计算模型 要了解MapReduce,首先需要了解MapReduce的载体是什么。在Hadoop中,用于执行MapReduce任务的机器有两个角色:一个是JobTracker,另一个是...原创 2018-05-24 16:34:51 · 550 阅读 · 0 评论 -
【Hadoop】Hadoop安装教程(单机/伪分布式)与配置_Hadoop2.6.0/Ubuntu14.04
Hadoop安装教程(单机/伪分布式)与配置_Hadoop2.6.0/Ubuntu14.04参考:厦门大学数据库实验室环境本教程使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统(可参考使用VirtualBox安装Ubuntu)。如果用的是 CentOS/RedHat 系统,请查看相应的...转载 2018-08-06 10:33:27 · 734 阅读 · 0 评论 -
基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置
基于Ubuntu Server16.04的Hadoop伪分布式及Spark的安装与配置一、配置JDK环境下载jdk安装包jdk-8u172-linux-x64.tar.gz解压安装包,并将其放在指定位置ubuntu@VM-54-14-ubuntu:~/downloads$ tar -zxvf jdk-8u172-linux-x64.tar.gzubuntu@VM-54-14-ubuntu:~/do...原创 2018-06-07 01:04:02 · 1452 阅读 · 0 评论 -
10天Hadoop快速突击(5)——HDFS详解
HDFS详解摘要HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。HDFS体系结构中有两类节点,一类是NameNode,又叫"元数据节点";另一类是DataNode,又叫"数据节点"。这两类节点分别承担Master和Worker具体任务的执行节点。 1)元数据节点用...转载 2018-07-16 12:48:08 · 584 阅读 · 0 评论 -
10天Hadoop快速突击(2)——Hadoop的安装与配置
Hadoop的安装与配置在Linux上安装与配置Hadoop Hadoop的下载地址为http://hadoop.apache.org/releases.html 在安装之前,需要先安装两个程序: 1)JDK。Hadoop是用Java编写的程序,Hadoop的编译及MapReduce的运行都需要使用JDK。 2)SSH,推荐安装openssh。Hadoop需要通过SSH来启...原创 2018-05-24 14:54:53 · 473 阅读 · 0 评论 -
【Hadoop】使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS
使用Eclipse编译运行MapReduce程序_Hadoop2.6.0_Ubuntu/CentOS参考:厦门大学数据库实验室环境本教程在 Hadoop 2.6.0 下验证通过,适用于 Ubuntu/CentOS 系统,理论上可用于任何原生 Hadoop 2 版本,如 Hadoop 2.4.1,Hadoop 2.7.1。本教程主要测试环境:Ubuntu 14.04 Hadoo...转载 2018-08-06 10:56:41 · 611 阅读 · 2 评论 -
10天Hadoop快速突击(4)——MapReduce工作机制
MapReduce工作机制一、MapReduce作业的执行流程1.MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写->作业配置->作业提交->Map任务的分配和执行->处理中间结果->Reduce任务的分配和执行->作业完成,而在每个任务的执行过程中,又包含输入准备->任务执行->输出结果。具体MapReduce作业详...原创 2018-06-18 19:44:23 · 681 阅读 · 0 评论 -
10天Hadoop快速突击(4)——MapReduce应用案例
开发MapReduce应用程序一、单词计数1.实例描述 计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。 比如,输出一个文本文件,内容如下: hello world hello hadoop hello mapreduce 对应上面给出的输入样例,其输出样例为: hadoop ...原创 2018-06-16 18:35:50 · 773 阅读 · 0 评论 -
Hadoop I/O操作原理整理
Hadoop I/O操作原理整理I/O操作中的数据检查 校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统,因此具有两方面的数据完整性。1、本地文件I/O的检查 本地文件...转载 2018-07-16 11:11:58 · 499 阅读 · 0 评论 -
10天Hadoop快速突击(5)——Hadoop I/O操作
Hadoop IO操作意义Hadoop自带一套用于I/O的原子性的操作(不会被线程调度机制打断,一直到结束,中间不会有任何context switch)特点基于保障海量数据集的完整性和压缩性 Hadoop提供了一些用于开发分布式系统的API(一些序列化操作+基于磁盘的底层数据结构)一、数据完整性hdfs写入的时候计算出校验和,然后每次读的时候再计算校验和。要注意的一点是,hdfs每固定长度就会计算...转载 2018-07-16 11:07:57 · 780 阅读 · 0 评论 -
【Hadoop】HDFS文件读取流程与副本放置策略
HDFS文件读取流程与副本放置策略文件读取流程图副本放置策略(物理拓扑图)BLOCK副本放置策略题目:Hadoop默认的副本放置策略有哪些?A. 第一个副本放在与客户端同一个节点上,如果客户端不在集群中,那么就会随机选一个节点存储 B. 第二个副本放在与第一个副本不同的机架上 C. 第三个副本放在与第二个副本相同的机架上的不同节点 D. 三...原创 2018-08-06 10:00:15 · 1483 阅读 · 0 评论 -
【大数据】Hadoop问题精华:Hadoop框架最核心的设计
Hadoop框架最核心的设计(常见问题)Q:Hadoop是什么?A:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Q:Hadoop框架最核心的设计是?A:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Q:H...原创 2019-08-01 12:53:35 · 971 阅读 · 0 评论 -
【Hadoop】HDFS文件写入流程详解
HDFS文件写入流程详解HDFS文件写入流程 题目:Client 端上传文件的时候下列哪项正确?A. 数据经过 NameNode 传递给 DataNode B. Client 端将文件切分为 Block,依次上传 C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 D. 客户端直接与DataNo...原创 2018-08-06 09:48:45 · 2834 阅读 · 0 评论 -
下一代MapReduce:YARN
下一代MapReduce:YARNApache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可...转载 2018-07-16 11:27:30 · 362 阅读 · 0 评论 -
10天Hadoop快速突击(3)——开发MapReduce应用程序
开发MapReduce应用程序一、系统参数的配置1.通过API对相关组件的参数进行配置这些API被分成了一下几个部分:org.apache.hadoop.conf:定义了系统参数的配置文件处理APIorg.apache.hadoop.fs:定义了抽象的文件系统APIorg.apache.hadoop.dfs:Hadoop分布式文件系统(HDFS)模块的实现org.apache.hadoop.map...原创 2018-06-10 12:07:49 · 2137 阅读 · 0 评论 -
【Hadoop】YARN概述
YARN概述YARN的产生背景与简介YARN基本架构原创 2018-08-06 10:08:55 · 337 阅读 · 0 评论 -
【大数据】Hadoop问题精华:如何设置单个任务占用的内存量和CPU数目?
如何设置单个任务占用的内存量和CPU数目?Q:默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?A:默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目远小于集群可以同时运行的任务数量),为了避免该情况发生,可以按照以下说明配置参数:如...原创 2019-08-01 13:27:06 · 898 阅读 · 0 评论 -
【Hadoop】WordCount案例详解
WordCount案例详解需求:文件中存储的各种各样的单词,统计在这些文件中每个单词的出现次数WordCount Map阶段原理:针对每行数据应用map方法,按照分隔符拆分;Map阶段输出单词作为key,1作为value。WordCount Reduce阶段原理:从Map阶段拷贝对应的输出结果,统计每个单词出现的总词数代码import org.apache...原创 2018-08-06 14:55:13 · 907 阅读 · 1 评论 -
基于Ubuntu Server16.04的Docker多节点Hadoop集群搭建实践
基于Ubuntu Server 16.04的Docker多节点Hadoop集群搭建一、项目介绍 想要学习Hadoop,然而只拥有一台腾讯云服务器,所以可以将Hadoop打包到Docker镜像中,快速在单个机器上搭建Hadoop集群。 如图所示,Hadoop的Master节点和Slave节点分布运行在不同的Docker容器中,其中hadoop-master容器中允许Name...原创 2018-05-18 18:10:46 · 783 阅读 · 1 评论 -
【Hadoop】Hadoop监控代码分析
Hadoop监控代码分析基本配置方法Hadoop监控实现了灵活的配置机制,可根据实际需求,在配置文件中指定采用什么方法(文件或者Ganglia等监控系统)收集Hadoop指标。一个简单的配置示例如下:配置方法类似Log4j,遵循Java Property文件的定义格式。例子中,*.sink.foo.class定义了监控中所有prefix(监控配置项中的prefix代表不同的Hadoop...原创 2019-12-03 19:32:37 · 716 阅读 · 0 评论 -
【Hadoop】Hadoop源码阅读环境搭建及相关问题解决(1)
Hadoop源码阅读环境搭建及相关问题解决基于IDEA搭建Hadoop源码阅读环境到官网下载Hadoop源码包,例如hadoop-2.6.5-src.tar.gz.https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1-src.tar.gz将下载的源码包解压到某个目录下,记住这个目录,后...原创 2020-09-12 00:32:57 · 668 阅读 · 0 评论 -
【大数据】大数据踩坑之路(2)
大数据踩坑之路问题描述:日志如下:问题分析问题描述:启动hadoop集群的时候出现如下问题:[hadoop@node01 hadoop-2.6.0-cdh5.14.2]$ start-dfs.shError: Could not find or load main class org.apache.hadoop.hdfs.tools.GetConfStarting namenodes on []node01: starting namenode, logging to /bigdata/inst原创 2020-09-21 00:34:59 · 678 阅读 · 0 评论 -
【Hadoop】Hadoop及Yarn调优
Hadoop及Yarn调优原创 2020-09-12 01:05:16 · 703 阅读 · 0 评论 -
【Yarn】Yarn资源调度系统
Yarn资源调度系统原创 2020-08-21 01:39:17 · 1484 阅读 · 0 评论 -
【Hadoop】MapReduce详解
MapReduce详解MapReduce介绍MapReduce的基本编程模型MapReduce的计算过程1. Map阶段可以概括为5个步骤:2. Reduce节点也可以分为5个步骤:设置ReduceTask并行度(个数)关于分片(Split)关于ShuffleMap端的shuffleReduce端的ShuffleShuffle流程详解补充问题:MapReduce分区相关问题理解1.Partition的原理和作用2.Partition的使用3.分组的概念和使用分组排序的步骤4.Combiner的使用概念实现步原创 2020-07-26 20:08:24 · 8372 阅读 · 0 评论 -
【Hadoop】HDFS文件写入与文件读取过程
HDFS文件写入与文件读取过程1. 文件读取过程2. 文件写入过程1. 文件读取过程详细过程:客户端通过调用FileSystem对象的open()来读取希望打开的文件。Client向NameNode发起RPC请求,来确定请求文件block所在的位置;NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode 都会返回含有该 block 副本的 DataNode 地址; 这些返回的 DN 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后原创 2020-07-14 00:41:46 · 1106 阅读 · 0 评论 -
【Hadoop】HDFS的基本应用
HDFS分布式文件系统详解1. 分布式文件系统详解1. 分布式文件系统详解HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.适合的应用场景存储非常大的文件:这里非常大指的是几百M、G、或者TB级别,需要高吞吐量原创 2020-07-14 00:19:18 · 1580 阅读 · 0 评论 -
【Hadoop】Hadoop大数据架构及关键组件
Hadoop大数据架构及关键组件1. Hadoop生态系统1.1 架构大数据生态的主要组件及其关系大数据生态大数据架构1. HDFS(Hadoop分布式文件系统):2. MapReduce(分布式计算框架):3. HBase(分布式列存数据库):4. ZooKeeper(分布式协作服务):5. Hive/Impala(基于Hadoop的数据仓库):6. Pig(ad-hoc脚本):7. Sqoop(数据同步工具):8. Flume(日志收集工具):9. Mahout(数据挖掘算法库):10. YARN/Me原创 2020-07-12 00:37:59 · 5936 阅读 · 0 评论