
hadoop
文章平均质量分 76
rolin-刘瑞
技术GEEK
展开
-
伪分布式系列 - 第一篇 - hadoop-3.2.0环境搭建
Hadoop的三种运行模式单机模式伪分布式模式全分布式集群模式环境准备安装包下载Hadoop配置启动服务简单使用原创 2019-07-24 22:29:26 · 7921 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成,分别是:(1)管理员和普通用户如何区分 (2)服务级别的权限,比如哪些用户可以向集群提交ResourceManager提交应用程序,(3)队列级别的权限,比如哪些用户可以向队列A提交作业等。转载 2017-10-11 18:07:16 · 6252 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数
Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队转载 2017-10-11 18:06:18 · 6383 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(1)—RM与NM相关参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默转载 2017-10-11 18:04:49 · 6120 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(3)—MapReduce相关参数
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job转载 2017-10-11 17:34:39 · 6401 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数
首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参转载 2017-10-11 17:31:15 · 6261 阅读 · 0 评论 -
Hadoop YARN中内存和CPU两种资源的调度和隔离
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceM转载 2017-10-11 16:56:13 · 6206 阅读 · 0 评论 -
YARN/MRv2 Resource Manager深入剖析—资源调度器
在YARN中,资源调度器(ResourceScheduler)是一个非常核心的部件,它负责将各个节点上的资源封装成container,并按照一定的约束条件(按队列分配,每个队列有一定的资源分配上限等)分配给各个application。(注意:本文分析基于hadoop-2.0.3-alpha)YARN的资源管理器实际上是一个事件处理器,它需要处理来自外部的6种SchedulerEve转载 2017-10-11 16:03:02 · 6583 阅读 · 0 评论 -
yarn-site.xml相关配置参数列表说明
ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${yarn.resourcemanager.hostname}:8032(2) yarn.resourcemanager.schedule转载 2017-10-11 15:49:26 · 11407 阅读 · 0 评论 -
map和reduce数量控制
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含sp转载 2017-08-31 11:45:14 · 7228 阅读 · 0 评论 -
yarn中的cgroup调度
cgroup控制cpu,/proc/mounts下有一个/sys/fs/cgroup/cpu配置路径,此部分是cgroup用来控制cpu隔离的路径配置。在/sys/fs/cgroup/cpu下添加子路径hadoop-yarn,这个路径是yarn用来控制cpu的隔离的根路径 通过yarn.nodemanager.linux-container-executor.cgroups.hiera转载 2017-10-11 18:13:14 · 6935 阅读 · 1 评论 -
Hadoop 新特性、改进、优化和Bug分析系列5:YARN-3
Hadoop jira链接:https://issues.apache.org/jira/browse/YARN-3所属范围(新特性、改进、优化或Bug):新特性修复版本:2.0.3-alpha及以上版本所属分支(Common、HDFS、YARN或MapReduce):YARN涉及模块:nodemanager英文标题:“Add support for CPU isolation转载 2017-10-11 18:29:15 · 6352 阅读 · 0 评论 -
HDFS 滚动升级,降级,回滚
介绍HDFS滚动升级可以升级单独的HDFS守护进程. 例如, datanode们可以独立于namenode来升级. 一个namenode也可以独立于其他的namenode们来升级. namenode们也可以独立于datanode们和journal node们升级.升级在Hadoop版本2中, HDFS支持高可用(HA)namenode服务并结合兼容性. 这两项能力使其可以在避免停机时间...转载 2018-12-02 14:55:14 · 7884 阅读 · 0 评论 -
Hadoop机架感知(rack-aware)配置
副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上,不同机架上的两台机器之间的通信需要经过交换机,这样会增加数据传输的成本。在大多数情况下,同一机架内的两台机器...转载 2018-09-15 16:27:27 · 6666 阅读 · 0 评论 -
HDFS NameNode内存详解
前言《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几个问题:当前...转载 2018-06-04 22:32:45 · 6975 阅读 · 0 评论 -
HDFS NameNode内存全景
一、概述从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和运行机制尤其重要。除特别说明外,本文基于社区版本Hadoop-2.4.1[1][2],虽然2.4.1...转载 2018-06-04 22:31:32 · 6114 阅读 · 0 评论 -
Hadoop安全实践
前言在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证。本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法。背景集群安全措施相对薄弱最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群转载 2018-04-18 17:12:12 · 6640 阅读 · 0 评论 -
Yarn 内存分配管理机制及相关参数配置
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行ma转载 2017-10-11 18:50:09 · 6149 阅读 · 0 评论 -
Hadoop-0.20.2公平调度器算法解析
1. 目的本文描述了hadoop中的公平调度的实现算法,公平调度器是由facebook贡献的,适合于多用户共享集群的环境的调度器,其吞吐率高于FIFO,论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2,在新版本(0.21.0)中,公平调度算法已经有了改进与增强。本文组织结构如下:1)目的 2)公平调度介绍 3)公平调度算法分析 4)新版hadoop中公平调度转载 2017-11-01 18:08:07 · 6306 阅读 · 0 评论 -
Hadoop计算能力调度器算法解析
1. 编写目的本文描述了hadoop中的计算能力调度器(Capacity Scheduler)的实现算法,计算能力调度器是由Yahoo贡献的,主要是解决HADOOP-3421中提出的,在调度器上完成HOD(Hadoop On Demand)功能,克服已有HOD的性能低效的缺点。它适合于多用户共享集群的环境的调度器。本文解析的计算能力调度器属于Hadoop 0.20.2。本文组织结构如 下:1)转载 2017-11-01 18:07:17 · 6372 阅读 · 0 评论 -
HDFS集群繁忙时删除大量的文件导致NameNode服务不可用原理解析
一、HDFS 核心组件简介:HDFS 主要核心组件:NameNode + DataNodeHDFS 采用 Master/Slave架构,一个HDFS集群由两个NameNode 和 一定数目的DataNodes组成,其中NameNode一个为Active,另一个作为Standby。NameNode几个核心:FSNameSystem(名字空间)、blockManager(块管理器)、Lease原创 2017-09-23 16:39:55 · 8883 阅读 · 0 评论 -
hadoop重启时,hdfs关闭不了,no namenode to stop
1. hdfs机器迁移,执行sbin/stop-dfs.sh 报错:hadoop001: no namenode to stophadoop001: no namenode to stophadoop001: no datanode to stophadoop001: no datanode to stophadoop001: no datanode to stopStoppin...原创 2015-11-23 16:25:11 · 9513 阅读 · 0 评论 -
hadoop distcp 实现不同集群之间数据同步
1.相同hadoop版本同步数据hadoop distcp -skipcrccheck -update -m 20 hdfs://hadoop01:8020/user/data/warehouse/test /user/data/warehouse/test 2.不同hadoop版本同步数据hadoop distcp -skipcrccheck -update -m 20 hftp...原创 2015-04-10 12:07:32 · 12933 阅读 · 0 评论 -
hadoop2.2+zk ha环境搭建
1.节点准备三个节点:master 192.168.1.150namenode,resourcemanager,datanode,nodemanager,zookeeper,journalnode,dfszkfailovercontrollerslave1 192.168.1.151namenode,datanode,nodemanager,zookeeper,journaln原创 2014-08-06 09:10:50 · 6950 阅读 · 0 评论 -
为hadoop和hbase配置压缩算法
Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取转载 2014-08-06 10:25:53 · 6602 阅读 · 1 评论 -
hdfs优缺点
本帖最后由 pig2 于 2014-2-4 14:20 编辑1 HDFS体系结构简介及优缺点1.1体系结构简介 HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些Da转载 2014-08-05 14:31:31 · 7348 阅读 · 0 评论 -
centos6.4hadoop2.2使用lzo压缩配置和测试
如有疑问关注新浪微博: http://weibo.com/youlingR 或者qq:946578327资料下载地址: http://pan.baidu.com/s/1sj4SbwxHadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持原创 2014-06-21 21:56:49 · 7461 阅读 · 0 评论 -
hadoop balancer 平衡hdfs文件块分布
在要balance的slave执行:start-balancer.sh -threshold 10% 或者 start-balancer.sh -t 10%或 ./hadoop balancer -threshold 10 或者 ./hadoop balancer -threshold 10 由于hadoop集群的机器磁盘容量大小不等,造成磁盘使用率不同,原创 2014-06-21 21:40:42 · 11184 阅读 · 0 评论 -
hadoop2.2.0+zookeeper+高可用+完全分布式
1.节点准备三个节点:master 192.168.1.150namenode,resourcemanager,datanode,nodemanager,zookeeper,journalnode,dfszkfailovercontrollerslave1 192.168.1.151namenode,datanode,nodemanager,zookeeper,journaln原创 2014-06-13 16:13:16 · 7260 阅读 · 0 评论 -
hiveserver添加到linux服务里,开机启动
#!/bin/sh#chkconfig: 2345 80 05 #descrīption: service case $1 instart);;stop);;*);;esac*****************首先拷贝一个上面的模板备用,下面解释一下#!/bin/sh 是说明该脚本调用的shell的类原创 2014-05-20 22:36:11 · 7134 阅读 · 0 评论 -
基于hadoop2.2的map端表关联(map side join)mapreduce实现
大数据工作组交流Q-Q群:161636262原因:之所以存在reduce side join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。但 Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而另一个表非常小,原创 2014-05-11 20:53:33 · 7228 阅读 · 0 评论 -
mapreduce实现reduce端表关联
表数据:company.txt:百度1新浪1腾讯2星环3address.txt: 1 北京2深圳3上海result.txt:新浪 北京百度北京腾讯深圳星环上海代码:package youling.studio.joinonreduce;原创 2014-05-11 16:06:07 · 6837 阅读 · 0 评论 -
MapReduce中的二次排序
在MapReduce操作时,我们知道传递的会按照key的大小进行排序,最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上,对value也进行排序。这种需求就是二次排序。我们先看一下Mapper任务的数据处理过程吧,见下图。在图中,数据处理分为四个阶段:(1)Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为转载 2014-08-06 16:31:25 · 6508 阅读 · 0 评论 -
hadoop job -list报错解决方法
错误信息[root@single Desktop]# hadoop job -listDEPRECATED: Use of this script to execute mapred command is deprecated.Instead use the mapred command for it.SLF4J: Class path contains multiple原创 2014-08-22 10:17:49 · 10576 阅读 · 0 评论 -
hadoop2.x手动切换namenode active
hdfs-site.xml配置配置命名空间,这里只配置了1个为freedom dfs.ha.namenodes.freedom nn1,nn2 切换命令:使用bin/hdfs haadmin --transitionToActive nn2即可切换active nn到nn2。这时nn1如果还存活则变成不可写状态,需要重启,重启后原创 2015-02-25 11:10:03 · 11816 阅读 · 0 评论 -
hadoop单机版安装
单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。1.配置hadoop_home/et原创 2015-01-04 11:05:04 · 6932 阅读 · 0 评论 -
测试hadoop安装成功与失败
1.首先是jps,看看java进程是否都在2.查看hdfs和yarn的web地址,看看能否出现3.hdfs dfs -ls / ,看看目录是否列的出来4../hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 5 10 跑一个mr例子试试这样就差不多了原创 2015-01-04 11:11:27 · 8222 阅读 · 0 评论 -
史上最牛hadoop2.2伪分布式hdfs数据迁移
hadoop2.2伪分布式hdfs数据迁移原创 2014-11-27 17:48:18 · 7312 阅读 · 0 评论 -
hadoop磁盘空间满的异常
本事故,发生在测试的环境上,虽然不是线上的环境,但也是一次比较有价值的事故。起因:公司里有hadoop的集群,用来跑建索引,PHP使用人员,调用建索引的程序时,发现MapReduce集群启动不起来了,报IOException异常,具体的异常没有记录,大致的意思就是磁盘空间满了,导致创建文件失败!下面散仙模拟当时的环境,接到问题后,第一件事就是先查看centos系统的磁盘使用率执行命令转载 2014-09-01 11:01:36 · 17000 阅读 · 0 评论 -
hadoop配置hdfs的磁盘限额
应用场景: 同一个集群内有些服务器磁盘 2T,有些服务器 500G,2T 的服务器磁盘得不到有效利用,这是就需要对 500G 的磁盘做限额配置.配置方法: 在 hdfs-site.xml 里配置如下参数,注意,那个 value 的值是配置该磁盘保留的DFS不能使用的空间大小,单位是字节. (如果多块硬盘,则表示为每块硬盘保留这么多空间) dfs.datanode.du.rese转载 2014-09-01 10:23:39 · 11333 阅读 · 0 评论