
hadoop
是小白哇
因为无知、所以追逐
展开
-
HDFS高可用(HA)设计
通过配置Active/Standby两个NameNode实现集群中对NameNode的热备。原创 2017-11-17 21:14:43 · 623 阅读 · 0 评论 -
初识Hadoop
hadoop四个模块Hadoop Common:为其他hadoop模块提供基础设施Hadoop HDFS:一个可靠的高吞吐量的分布式文件系统,对海量数据的存储。Hadoop MapReduce:一个分布式并行计算框架,对海量数据的处理Hadoop YARN:一个新的MapReduce框架,任务调度与资源管理HDFS 数据是以block的方式进行存储namenode:是原创 2017-10-31 10:15:33 · 403 阅读 · 0 评论 -
ntp配置内网集群时间同步
思路: 找一台主机作为时间主机,所有的其他主机定时与这台主机进行时间的同步。如,每隔10分钟,同步一次时间。一、配置时间服务器此处选择选择一台主机为时间服务器,例如hadoop-series.bxp.com,现在对hadoop-series.bxp.com时间服务器进行如下配置。1、安装ntp服务(1)查看ntp服务是否安装:rpm -qa | grep ntp(2)没有安装,则安装ntpyum原创 2017-11-16 10:56:06 · 4203 阅读 · 1 评论 -
MapReduce基本调优策略
设置reduce数量默认情况下,一个块对应一个map。 默认情况下只有一个reduce。 设置reduce个数: job.setNumReduceTasks(2); //设置reduce的个数或者conf.set("mapreduce.job.reduces", "2"); //设置reduce的个数实际中reduce的个数要进行不断的测试获取一个趋于平稳的值。map任务的输出压缩 C原创 2017-11-06 17:24:59 · 1467 阅读 · 0 评论 -
MapReduce Shuffle过程深入理解
MapReduce Shuffle过程深入理解原创 2017-11-06 12:28:45 · 2587 阅读 · 0 评论 -
Hadoop安装——启动模式,基本配置,启动方式
推荐直接看官方文档Hadoop三种启动模式 Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed ModeStandalone Operation$ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapred原创 2017-11-01 10:08:29 · 938 阅读 · 0 评论 -
MapReduce数据类型及自定义MapReduce数据类型
MapReduce数据类型数据类型都要实现Writable接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储。自定义key数据类型的时候,因为需要对key进行排序,需要继承java中的比较器,所以可以直接继承WritableComparable(WritableComparable继承了Writable和Comparable)。基本数据类型:BooleanWritableByteW原创 2017-11-06 00:16:16 · 3875 阅读 · 0 评论 -
MapReduce编程模型及实现WordCount
思想分而治之map:对每一部分数据进行处理reduce:合并编程模型一种分布式计算模型,解决海量数据的计算问题MapReduce将整个并行计算过程抽象到两个函数中 map(映射):对一些独立元素组成的列表的每一个元素进行指定的操作,可以高度合并。reduce(化简):对一个列表的元素进行合并一个简单的MapReduce程序只需要指定map(),reduce(),input和outp原创 2017-11-05 16:20:41 · 1198 阅读 · 0 评论 -
Hadoop——HDFS Federation、File System Snapshots、集中式缓存管理、Distributed Copy、YARN HA简单讲解
HDFS Federation假设实际的环境中有一个Hadoop集群存储这多个不同的业务的数据(日志信息,消费行为信息,客户行为等),并且这些业务的数据的元数据信息由同一个namespace中的namenode进行管理。 再程序运行的过程中,如果一个业务程序出错,如出现死循环,此时可能会使得namenode停止运行。如果出现这种情况,因为三个业务的元数据信息由同一个namenode进行管理的。所以原创 2017-11-18 20:47:50 · 291 阅读 · 0 评论 -
YARN架构和资源管理
架构Hadoop1和Hadoop2区别yarn架构图resourcemanager全剧的资源管理器,整个集群只有一个,负责集群整个资源的统一管理和调度分配功能:处理客户端请求启动/监控ApplicationMaster监控NodeManager资源调度与分配NodeManager整个集群有多个,负责单结点的资源管理和使用功能:单个结点上的资源管理和任务管理处理来自ResourceMan原创 2017-11-05 00:05:59 · 2274 阅读 · 0 评论 -
NameNode启动过程
NameNode启动过程NameNode数据存储在内存和本地磁盘,本地磁盘数据存储在fsimage镜像文件和edits编辑日志文件 第一次启动 1、格式化文件系统,为了生成fsimage镜像文件 2、启动NameNode (1)读取fsimage文件,将文件内容加载进内存 (2)等待DataNade注册与发送Block Report 3、启动DataNod原创 2017-11-04 23:23:22 · 1690 阅读 · 0 评论 -
HDFS架构与交互
HDFS(Hadoop Distributed FIle System)易于扩展的分布式文件系统运行在大量普通廉价的机器上,提供容错机制为大量的用户提供性能不错的文件存取服务NameNode负责管理文件系统的名字空间以及客户端对文件的访问namenode负责文件元数据的操作,datanode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过namenode,只原创 2017-11-04 00:41:08 · 413 阅读 · 0 评论 -
HDFS高可用(HA)配置
关于HDFS HA如何进行设计,请查看——>HDFS高可用(HA)设计,以下的配置也都是根据此文中的设计方式进行配置,所以为了更好的理解下面各个配置的含义,务必先阅读此文。对各个节点进行划分:原创 2017-11-18 20:32:06 · 896 阅读 · 0 评论 -
Hadoop集群搭建——环境配置
一、集群搭建注意问题说明1、此处集群环境搭建我使用了三台主机进行模拟,分别为:hadoop-series.bxp.comhadoop-series1.bxp.comhadoop-series2.bxp.com2、集群搭建前需要注意的问题:(1)集群中的节点的用户名登陆名和密码应当保持一致。 (2)hadoop和jdk的安装目录应当保持一致。以上保持一致不是必须的,只是原创 2017-11-15 10:14:33 · 546 阅读 · 0 评论