
Hadoop
iteye_5304
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【4】Hadoop HDFS 版本升级
1:运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份2:备份dfs.namenode.dir下文件3:停止所有节点 bin/stop-all.sh4:在所有节点上重新部署hadoop 并替换conf文件夹下所有文件(就是将原有的hadoop-0.19.1更名为hadoop-0.19.1-oldverstion,然后解压hadoo...2009-11-13 08:35:47 · 330 阅读 · 0 评论 -
hadoop作业reduce过程调优使用到的参数笔记
reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition,所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后,所有的reduce就开...原创 2011-02-25 18:09:31 · 260 阅读 · 0 评论 -
hadoop作业map过程调优使用到的参数笔记
参数:io.sort.mb(default 100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中,这个buffer默...原创 2011-02-25 17:25:15 · 158 阅读 · 0 评论 -
修改Hadoop集群的备份数
之前dfs.replication值为3,运行一段时间之后我使用完了磁盘空间,所以呢,现在我想通过降低备份的个数来释放空间。那么对于之前存储的文件会自动把备份数改为1吗?还是需要手动执行命令来执行呢?dfs.replication这个参数其实只在文件被写入dfs时起作用,虽然更改了配置文件,但是不会改变之前写入的文件的备份数。但是可以通过如下命令更改备份数:bin/h...2011-02-25 14:03:54 · 731 阅读 · 0 评论 -
基于Hadoop的一些工具一句话介绍
Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。 Chukwa 是基于Hadoop集群中监控系统,可以用他来分析和收集系统中的数据(日志) Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作 HBase 是一个面向列的分布式数据库。 Map ...2011-02-17 16:05:13 · 138 阅读 · 0 评论 -
hadoop自动清除日志文件的配置方法
hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件:<property> <name>hadoop.logfile.size</name> <value>10000000</value> <...2011-01-19 17:57:55 · 851 阅读 · 0 评论 -
zookeeper的简易安装配置
官网的user guide在这:http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html#sc_RunningReplicatedZooKeeper zookeeper的配置只需要更改两个文件一个是 ./conf/zoo.cfg一个是zoo.cfg中配置的dataDir的目录下的myid文件,这个...2011-01-12 17:24:10 · 101 阅读 · 0 评论 -
【2】Hadoop 配置
Hadoop Configuration新增hadoopuser用户[root@noc rou]# adduserbash: adduser: command not found[root@noc rou]# cd /usr/bin/[root@noc bin]# ln -s /usr/sbin/adduser adduser[root@noc bin]# adduser ...2009-09-26 21:23:01 · 115 阅读 · 0 评论 -
【3】Hadoop中常出现的错误以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。/etc/security/limits.confvi /etc/security/lim...2009-11-14 12:23:44 · 146 阅读 · 0 评论 -
【1】Hadoop 介绍
Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。MapReduce从它名字上来看就大致可以看出个缘由...2009-11-14 12:15:37 · 101 阅读 · 0 评论 -
配置hadoop使用lzo对中间数据进行压缩
分3步完成1.需要使用root安装liblzo动态链接库#rootcp ./lib64/liblzo2.so.2.0.0 /lib64cd /lib64/ln -s liblzo2.so.2.0.0 liblzo2.soln -s liblzo2.so.2.0.0 liblzo2.so.2--检查下是否拷贝进去了ls -l /lib64|grep lzo|w...2012-05-18 11:45:17 · 328 阅读 · 0 评论