
hadoop
whiteblacksheep
这个作者很懒,什么都没留下…
展开
-
hadoop-2.6.0-cdh5.15.1源码编译安装遇到的问题
编译安装步骤还是安装之前的hadoop-2.6.0-cdh5.7.0,这里就不说了遇到的问题:[FATAL] Non-resolvable parent POM for org.apache.hadoop:hadoop-main:2.6.0-cdh5.15.1: Could not transfer artifact com.cloudera.cdh:cdh-root:pom:5.15....原创 2019-08-01 16:15:02 · 1406 阅读 · 0 评论 -
YARN and MapReduce的【内存】优化配置详解
本分转载博客http://blog.itpub.net/30089851/viewspace-2127850/在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapRed...转载 2019-07-11 14:30:20 · 123 阅读 · 0 评论 -
YARN的Memory和CPU调优配置详解
Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内存、CPU、磁盘的资源的很重要的,根据经验,每两个...转载 2019-07-11 15:37:17 · 316 阅读 · 0 评论 -
mr on yarn架构设计详解
流程图描述1.用户向yarn提交job,其中包含application master程序,启动application master的命令等2.RM为该job分配第一个container,与对应的NM通信,要求它在这个container启动作业的application master3.application master向applications manager注册,这样用户就可以通过RM...原创 2019-07-11 16:21:04 · 206 阅读 · 0 评论 -
影响yarn资源调优的6个参数
内存参数yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的内存总数,默认是8Gyarn.scheduler.minimum-allocation-mb单个任务可申请的最小的内存大小,默认是1G,当内存不够时,会自动按照一定大小累加内存。yarn.scheduler.maximum-allocation-mb单个任务可申请的最大...原创 2019-07-11 16:50:53 · 611 阅读 · 0 评论 -
mapreduce 1的工作机制
MapReduce 1MapReduce 1 也就是Hadoop 2.0之前的工作机制,hadoop2.0后,工作原理就是之前博客提到的mapreduce on yarn工作原理构成MapReduce 1最主要的其实就是jobtracker和tasktracker:jobtracker,用来协调作业的运行。它也是一个Java程序,主类是JobTracker。tasktracker,用...原创 2019-07-15 20:23:54 · 249 阅读 · 0 评论 -
yarn的三种调度器详解
FIFO SchedulerFIFO是简单容易理解的调度器,它是一个先进先出的队列,也就是按照job提交顺序来排队,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。如上图所示,job1比job2先提交,只有当job1执行完了资源才会给与job2。 这种调度方式不需要配置,但是生产上不使用这种调度,因为一旦某个job需要的全部资源,那么...原创 2019-07-15 20:51:25 · 1765 阅读 · 0 评论 -
hdfs和yarn HA 架构图梳理和总结
1.hdfs HA 架构图梳理HA使用active NN, standby NN两个节点解决单点问题。两个NN节点通过JN(JournalNode)集群,共享状态,通过ZKFC选举active,监控状态,自动备援。DN会同时向两个NN节点发送心跳。各个组件的作用active nn:接收client的rpc请求并处理,同时自己editlog写一份,也向JN的共享存储上的editlog写一份...原创 2019-08-20 17:38:46 · 606 阅读 · 0 评论 -
hdfs dfs -ls命令的理解
hdfs dfs -ls 和hdfs dfs -ls / 和hdfs dfs -ls / hdfs://hostname:8020分别是查看的那个目录[hadoop@hadoop001 ~]$ hdfs dfs -ls /Found 2 itemsdrwxr-xr-x - hadoop hadoop 0 2019-08-25 11:59 /userdrwx...原创 2019-08-25 12:16:56 · 11322 阅读 · 0 评论 -
hdfs 安全模式的理解
hdfs 安全模式的理解安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式:当系统处于安全模式时会去检查数据块的完整性假设我们设置的副本数(即参数dfs.replication)是3,那么在datanode上就应该有3个副本存在,假设只存在1个副本,那么比例就是1/3=0.333,这个比例就是副本率;在配置文件hdfs-default....原创 2019-08-25 16:01:10 · 332 阅读 · 0 评论 -
阿里云主机hadoop2.6.0-cdh5.15.1-HA环境搭建
1.版本组件版本备注centoscentos7.2JREjdk-8u45-linux-x64.gz-hadoophadoop-2.6.0-cdh5.15.1.tar.gz自己通过源码编译的,具有压缩工具zookeeperzookeeper-3.4.6.tar.gz热切,yarn存储数据使用的协调服务2.阿里云环境搭建具体步骤在这不详...原创 2019-08-23 01:43:47 · 683 阅读 · 0 评论 -
HDFS小文件危害以及解决方案
小文件的定义文件大小小于或者等于30M的文件小文件的危害(1)HDFS不适合大量小文件的存储,因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存(2)HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入大量的...原创 2019-07-10 10:57:01 · 3193 阅读 · 0 评论 -
详解SecondaryNameNode
作用定期合并NN节点的fsimage+editlog为新的fsimage,推送给NN,简称检查点 checkpoint。影响checkpoint的两个参数: dfs.namenode.checkpoint.period 3600 dfs.namenode.checkpoint.txns 1000000注意:dfs.namenode.checkpoint.period参数已经...原创 2019-07-10 10:40:19 · 199 阅读 · 0 评论 -
hadoop--hdfs伪分布式部署
一.创建单独的管理用户useradd hadoop二.准备需要安装的tar包[hadoop@ruozedata001 ~]$ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz三.准备相应版本的java环境(最好参照官网)1.通过rz命令将jdk-8u45-linux-x64.gz 上传到...原创 2019-07-01 16:37:57 · 115 阅读 · 0 评论 -
hadoop访问ssh非默认端口问题
1.linux系统为了安全加固,修改ssh访问的默认端口号为2222 [root@ruozedata001 ~]# vim /etc/ssh/sshd_config 将里面的Port 22 修改为 Port 2222 [root@ruozedata001 ~]#reboot 2.安装hadoop时,启动hadoop报错 [hadoop@ruozedata001 hadoop]$ s...原创 2019-07-02 10:14:39 · 1840 阅读 · 1 评论 -
hadoop jps使用
一.jps和java在java包的同一目录[hadoop@ruozedata001 ~]$ which jps/usr/java/jdk1.8.0_45/bin/jps[hadoop@ruozedata001 ~]$ which java/usr/java/jdk1.8.0_45/bin/java[hadoop@ruozedata001 ~]$ 注意:前提是必须安装jdk,必须配置好环...原创 2019-07-05 11:26:42 · 763 阅读 · 0 评论 -
hadoop系统重启过后,namenode不能启动问题
问题描述:hadoop系统重启过后,执行sbin/start_dfs.sh启动脚本[hadoop@ruozedata001 hadoop]$ jps6033 Jps5304 SecondaryNameNode5119 DataNode[hadoop@ruozedata001 hadoop]$ namenode始终起不来查看namenode日志,报错如下tail -F /home...原创 2019-07-05 12:41:56 · 1335 阅读 · 0 评论 -
以hostname启动hadoop各个服务
背景:在Hadoop伪分布式部署中我们没有设置相关参数使得,NN和DN使用得是localhost启动得,而SNN是0.0.0.0启动得。在真正生产中,不可能使用IP来启动相关组件得,因为IP很有可能会变动,当ip变动的时候,可能你就得修改大量代码中得IP。因此,使用hostname来启动各组件是最稳妥得。解决方案:1.配置hostname [root@hadoop001 ~]$ vim ...原创 2019-07-05 13:08:31 · 253 阅读 · 0 评论 -
hadoop-hdfs读写流程整理
hdfs读流程Client通过FileSystem.open(filePath)方法,与NN节点进行【rpc】协议通信,校验是否有权限是否存在,假如都ok,返回该文件的部分或全部的block的列表(包含各个block块的分布在DN地址的列表),也就是返回【FSDataInputStream】对象;Clinet调用FSDataInputStream.read方法a.与第一个块的最近的DN...原创 2019-07-08 15:56:59 · 342 阅读 · 0 评论 -
hadoop-hadoop常用命令
hadoop命令命令帮助 hadoop然后回车hadoop fs 等价于 hdfs dfs 命令 hadoop fs -ls 显示目录信息,递归-lsr hadoop fs -mkdir /user/tguigu 在hdfs上创建目录 hadoop fs -moveFromlocal test.txt /user/tguigu/data 从本地剪切粘贴到hdfs hadoo...原创 2019-07-08 16:38:27 · 269 阅读 · 0 评论 -
hadoop_hadoop-2.6.0-cdh5.7.0源码编译支持压缩以及伪分布式部署
1.需求与设计1.1需求直接使用的hadoop-2.6.0-cdh5.7.0.tar.gz包部署的hadoop集群不支持文件压缩,生产上是不可接受的,故需要将hadoop源码下载重新编译支持压缩1.1概要设计下载hadoop源码,使用maven编译,使其支持压缩。并成功进行伪分布式集群部署验证压缩功能。|组件名称|组件版本 |百度网盘链接2.环境需求以及部署规划2.1 硬件环境一...原创 2019-07-09 22:22:55 · 619 阅读 · 0 评论 -
生产HDFS Block损坏恢复最佳实践
上传文件ruozedata.md 上传: -bash-4.2$ hdfs dfs -mkdir /blockrecover -bash-4.2$ echo "www.ruozedata.com" > ruozedata.md -bash-4.2$ hdfs dfs -put ruozedata.md /blockrecover -bash-4.2$ hdfs dfs -ls...原创 2019-07-10 09:56:02 · 197 阅读 · 0 评论 -
HDFS架构及其副本放置策略
架构blockHDFS会将文件分成若干block块来存储,这个dfs.blocksize参数默认block大小为128MNameNode(NN)主要是存储整个HDFS的文件系统,包括:文件名称/文件目录结构/文件属性(权限,创建时间,副本数等)/文件对应的哪些块(副本块),这里的文件和副本块的映射关系并不会持久化,而是在集群运行或者启动时,DN定期发送blockreport给NN来更新映...原创 2019-07-10 10:09:52 · 325 阅读 · 0 评论 -
hdfs API命令操作京东云主机,采坑记录
代码public class HDFSApp {public static final String HDFS_PATH="hdfs://hadoop001:9000";Configuration configuration;FileSystem fileSystem;@Beforepublic void setUp() throws Exception{ BasicCon...原创 2019-08-28 10:47:05 · 1128 阅读 · 0 评论