
hadoop安装&运行
文章平均质量分 57
迷途小码
大数据及后台开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据端口一览
组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS ...转载 2020-03-25 11:15:14 · 558 阅读 · 0 评论 -
最后一个 block 没有足够的副本数,文件关闭失败
堆栈信息:java.io.IOException: Unable to close file because the last block does not have enough number of replicas. at org.apache.hadoop.hdfs.DFSOutputStream.completeFile(DFSOutputStream.java:2528...转载 2019-11-18 10:06:14 · 4267 阅读 · 9 评论 -
用户操作文件的权限检查
用户操作文件的权限检查器——PermissionChecker在HDFS中,也提供了类似于linux文件系统中的文件操作权限管理功能,当我们在HDFS中创建一个文件/目录的时候,一般会为这个文件/目录附加对应的创建者、操作权限码。这里的操作权限码与linux中文件操作模式是完全一样的,如:0x777。那么,当一个客户端在对一个文件/目录进行操作(创建一个文件,读、写文件等)之前,先要对这个转载 2013-07-04 14:56:47 · 1299 阅读 · 0 评论 -
hadoop命令 - 查看文件的block size
当向HDFS上写文件时,可以通过设置dfs.block.size配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。Hadoop FS Shell提供了一个-stat选项可以达到目的。官方文档描述这个选项时遗漏了可选参数。-stat选项的使用转载 2014-04-24 09:54:47 · 7472 阅读 · 0 评论 -
hadoop2.x配置 - Uber模式参数
Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。即如果作业足够小,则所有task在一个jvm(mrappmaster)中完成要比为每个task启动一个container更划算。下面是该机制的相关参数,这些参数均为客户端配置。总开关mapreduce.job.ubertask.enable 默认值:false作业规模条件mapreduce.job.u转载 2014-06-12 09:49:42 · 2236 阅读 · 0 评论 -
hadoop命令 - fs count
最近要对hdfs上空间使用和文件结点使用增加报警,当超过一定的限额的时候就要发报警好通知提前准备。第一个数值2表示/sunwg下的文件夹的个数,第二个数值1表是当前文件夹下文件的个数,第三个数值108表示该文件夹下文件所占的空间大小,这个大小是不计算副本的个数的[sunwg]$ hadoop fs -count -q /sunwg 1024转载 2014-04-30 15:08:38 · 1482 阅读 · 0 评论 -
hadoop命令 - Hadoop Non DFS Used concept
使用hadoop dfadmin –report,结果如下:[grid@h1 hadoop]$ bin/hadoop dfsadmin-reportConfigured Capacity: 33518518272 (31.22 GB)Present Capacity: 17089126400 (15.92 GB)DFS Remaining:17088819200 (15.9转载 2013-09-27 15:40:14 · 3472 阅读 · 0 评论 -
hadoop配置 - secondarynamenode配置与恢复
secondary namenoded 配置很容易被忽视,如果jps检查都正常,大家通常不会太关心,除非namenode发生问题的时候,才会想起还有个secondary namenode,它的配置共两步: 集群配置文件conf/master中添加secondarynamenode的机器 修改/添加 hdfs-site.xml中如下属性: dfs.http.ad转载 2013-10-08 17:46:01 · 2382 阅读 · 0 评论 -
hadoop1.x配置 - 集群增加datanode
目前环境说明:主机名 IP地址 用途Hadoop1 192.168.3.65 namenode、jobtrackerhadoop2 192.168.3.66 datanode、tasktrackerhadoop3 192.168.3.67 datanode、tasktracker、seconda转载 2013-07-18 10:07:46 · 1068 阅读 · 0 评论 -
is dfsclient caches the data block to local disk before writing?
Question:Is staging still used in hdfs when writing the data? This doubt arose when I was going through the hdfs documents. ref :http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html#Stagin转载 2014-04-02 17:29:23 · 885 阅读 · 0 评论 -
hadoop1.x配置 - 集群删除datanode
环境说明:主机名 IP地址 用途master 192.168.5.54 namenode、jobtrackerslave1 192.168.5.56 datanode、tasktrackerslave2 192.168.5.57 datanode、tasktrackerslave3转载 2013-07-18 10:10:15 · 1583 阅读 · 0 评论 -
Hadoop命令 - FSCK result shows missing replicas
Question:could anyone let me know how to fix missing replicas?============================================================================Total size: 3447348383 BTotal dirs: 120Total files:转载 2014-04-23 09:16:26 · 3398 阅读 · 0 评论 -
hadoop介绍 - Hadoop Backup Node
要了解Hadoop Backup Node,要从Namenode的元数据说起。我们都知道Namenode的元数据非常重要,如果元数据损坏,所有存储在datanode中的数据都读不出来了。另外,如果Namenode的元数据比较大,那么集群的启动速度非常慢。为了解决这两个问题,Hadoop弄了一个Secondary Namenode。Namenode的元数据:Hadoop Namenode转载 2013-12-20 16:54:47 · 1131 阅读 · 0 评论 -
hadoop介绍 - Hadoop secondarynamenode concept
On hadoop0.23.0 release there is no conf/masters file where we used to specify the host address where secondary name node needs to start.The documentation for 0.23 is a bit sparse and I had to dig转载 2013-09-27 15:33:18 · 994 阅读 · 0 评论 -
hadoop2.x配置 - hadoop备份系数dfs.replication
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。当更改dfs.replication配置后,会对之后的文件副本数生效,之前的需要自己手动修改,也可以不修改,不需要重启集群或节点。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数转载 2013-10-11 16:20:32 · 2386 阅读 · 0 评论 -
hadoop命令 - 创建用户及hdfs权限、hdfs操作等常用命令
sudo addgroup hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL修改hadoop目录的权限sudo chown -R转载 2013-07-03 17:47:30 · 3404 阅读 · 0 评论 -
hadoop介绍 - Hadoop部署案例
案例之一:eBay的Hadoop环境eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。虽然eBay只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。这些涉及转载 2014-03-28 10:10:05 · 837 阅读 · 0 评论 -
hadoop2.x配置 - override log4j.properties in hadoop
Question:How do I override the default log4j.properties in hadoop? If I set the hadoop.root.logger=WARN,console, it doesnot print the logs on the console, whereas what I want is that it shouldn't转载 2014-03-19 11:31:27 · 2447 阅读 · 0 评论 -
Namenode recovery, How does namenode recovery works?
Question:In hadoop ecosystem we have NameNode and SecondaryNameNode,NameNode is responsible to managing all data available in cluster, So my question is whenNameNode goes down how ecosystem repl转载 2014-04-17 11:21:08 · 1066 阅读 · 0 评论 -
hadoop2.x配置 - HistoryServer原理详解
本文介绍了YARN中historyServer的原理和配置HistoryServer的原理简介下图展示了historyServer的数据流向图.解释:1. NodeManager在启动的时候会初始化LogAggregationService服务, 该服务会在把本机执行的container log (在container结束的时候)收集并存放到hdfs指定的目录下.2. Ap转载 2014-06-12 16:07:55 · 5744 阅读 · 1 评论 -
How to Change Hadoop Daemon log4j.properties
refer:https://discuss.pivotal.io/hc/en-us/articles/202296718-How-to-Change-Hadoop-Daemon-log4j-propertiesRefer to the following Java Docs for log4j and sample configuration params quick refe翻译 2017-06-01 17:07:10 · 791 阅读 · 0 评论 -
Zookeeper 日志输出到指定文件夹
refer:http://www.cnblogs.com/zhwbqd/p/3957018.html最近在研究Zookeeper Storm Kafka, 顺便在本地搭了一套集群, 遇到了Zookeeper日志问题输出路径的问题, 发现zookeeper设置log4j.properties不能解决日志路径问题, 发现解决方案如下:1. 修改log4j.propert转载 2017-06-01 16:59:46 · 1072 阅读 · 0 评论 -
Hadoop运维笔记 - 更换du命令降低datanode磁盘IO
背景介绍:近期,不少datanode节点的磁盘IO比较高,主要原因还是由于job数量的增多,以及规模的增大。但任何可以降低磁盘IO消耗的手段,我们都可以尝试一下。比如,我们经常可以看到hdfs用户在执行"du -sk"命令:[root@idc1-server2 ~]# ps -ef| grep "du -sk"1hdfs 17转载 2016-08-25 11:29:33 · 3211 阅读 · 0 评论 -
Hadoop默认端口说明
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。组件Daemon端口配置说明转载 2016-06-08 17:35:22 · 2484 阅读 · 0 评论 -
通过nginx实现内网hadoop、hbase集群对外访问web界面
转载请标明出处:http://blackwing.iteye.com/blog/1949154 不少公司为了安全,hadoop、hbase集群都是不对外开放,只有一台入口机对外,那么当要查看hadoop、hbase集群机器状态等信息时,就没办法了。 而要实现内网机器给外网访问,要解决的问题是: 1.hadoop、hbase页面上的url替换成外网能访问的url 2.通过有限转载 2016-06-08 14:46:24 · 4400 阅读 · 0 评论 -
Hadoop YARN配置参数剖析—Capacity Scheduler相关参数
======refer:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-capacity-scheduler/======Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capac转载 2016-06-02 16:08:05 · 642 阅读 · 0 评论 -
Hadoop升级(HA) 2.2升级到2.6
官网的文档[HDFSHighAvailabilityWithQJM.html]和[HdfsRollingUpgrade.html](Note that rolling upgrade is supported only from Hadoop-2.4.0 onwards.)很详细,但是没有一个整体的案例。这里整理下操作记录下来。关闭所有的namenode,部署新版本的hadoop启转载 2016-05-06 13:25:12 · 4054 阅读 · 1 评论 -
Hadoop升级(No HA) 2.2升级到2.6
部署2.6.31234567891011121314[hadoop@hadoop-master1 ~]$ tar zxvf hadoop-2.6.3.tar.gz [hadoop@hadoop-master1 ~]$ cd hadoop-2.6.3/share/[hadoop@hadoop-master1 share]$ rm转载 2016-05-06 13:23:32 · 1355 阅读 · 1 评论 -
Hadoop升级(HA+Federation) 2.2升级到2.6
参照《Hadoop升级(HA) 2.2升级到2.6》改变第3步骤:一、升级namenode的时候,指定clusterid,并在主namenode上执行即可hdfs namenode -upgrade -clusterid CID-7a2161ec-ba1c-42d8-9f7b-d8a6c4c7df0ds二、热备namenode通过主namenode同步附原创 2016-05-10 10:35:10 · 1191 阅读 · 0 评论 -
Hadoop动态调整日志级别
调整master节点或者slave节点的日志级别日志库将日志分为5 个级别,分别为DEBUG、INFO、WARN、ERROR 和FATAL。这5 个级别对应的日志信息重要程度不同,它们的重要程度由低到高依次为DEBUG 浏览器中输入:“http://:50070/logLevel”第一行用于获取class log level,举例:可以输入"org转载 2015-04-22 18:02:27 · 3648 阅读 · 0 评论 -
What is the maximum number of files allowed in a HDFS directory?
Question:What is the maximum number of files and directories allowed in a HDFS (hadoop) directory?Answer:The blocks and files are stored in a HashMap. So you are bound to Integer.MAX_VALUE. So a转载 2014-06-17 16:06:29 · 902 阅读 · 0 评论 -
hadoop2.x配置 - 启用snappy
Snappy是一个压缩/解压缩库。它的压缩率并非最高,但是它在保证一定压缩率情况下,压缩及解压缩速度非常快。基于以上特点,Snappy非常适合用于Hadoop MapReduce中间数据压缩。Snappy详情参见:http://code.google.com/p/snappy/。 本文将介绍如何在Hadoop2中启用Snappy压缩。1、下载Snappy的rpm包:http://www.r转载 2014-04-28 10:35:11 · 1857 阅读 · 0 评论 -
hadoop介绍 - 关于hadoop的文件权限
1、HDFS本身没有提供用户名、用户组的创建,在客户端调用hadoop 的文件操作命令时,hadoop 识别出执行命令所在进程的用户名和用户组,然后使用这个用户名和组来检查文件权限。 2、hadoop的文件权限同linux的用户权限管理机制相同,读写执行,分为 自己 、同一组、alluser 权限层,且有chmod 和 chown相应的操作 。 3、关于web界面中对于权限,w原创 2014-06-17 16:13:45 · 1561 阅读 · 0 评论 -
Hadoop报错:NoRouteToHostException: No route to host
当用户上传数据到HDFS上时经常会出现这个错误hdfs.DFSClient:Exception in createBlockOutputStream java.net.NoRouteToHostException:No route to host这种情况网上的解决办法 通常是告诉要关闭防火墙,至于 关于哪台主机 的防火墙并没提。查看日志文件,只说是No route to host没有提端口转载 2014-06-17 16:09:53 · 1504 阅读 · 0 评论 -
several technical limits to the NameNode
There are several technical limits to the NameNode (NN), and facing any of them will limit your scalability.1. Memory. NN consume about 150 bytes per each block. From here you can calculate how much转载 2014-06-17 16:07:43 · 714 阅读 · 0 评论 -
how to update config parameter of hadoop mapred-site.xml without restarting the cluster
Question:I would like to add/update the following parameter mapred.map.tasks.speculative.execution false in mapred-site.xml in hadoop. How can I do this without restarting the cluster?转载 2014-06-17 16:05:11 · 762 阅读 · 0 评论 -
hadoop命令 - fs du/dus
hadoop fs -du [URL] 显示显示目录中所有文件的大小,或者当只指定一个文件时,显示此文件的大小。原创 2014-04-30 15:21:33 · 7851 阅读 · 0 评论 -
hadoop2.x配置 - 改 hadoop ssh 端口
启动hadoop,但ssh 端口不是默认的22怎么样?好在它可以配置。在conf/hadoop-env.sh里改下。如: export HADOOP_SSH_OPTS="-p 1234"原创 2014-06-30 19:19:52 · 4911 阅读 · 0 评论 -
hadoop2.x配置 - RM与NM相关参数
REFER:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------转载 2014-06-11 17:39:44 · 1712 阅读 · 0 评论 -
Deploy and Use the Splunk App for HadoopOps
Metrics collection with HadoopOpsIn this topic we talk about how to set up your Hadoop deployment to correctly collect metrics with the Splunk app for HadoopOps. We identify some of the root causes转载 2014-04-11 09:12:28 · 1127 阅读 · 0 评论