Hadoop_iteye_5304的博客-优快云博客

Hadoop

关注

关注数：文章数：11 文章阅读量：3404 文章收藏量：1

作者: iteye_5304

这个作者很懒，什么都没留下…

展开

专栏收录文章

【4】Hadoop HDFS 版本升级

1：运行dfsadmin -upgradeProgress status 检查是否存在备份如果是第一次升级就不存在备份2：备份dfs.namenode.dir下文件3：停止所有节点 bin/stop-all.sh4：在所有节点上重新部署hadoop 并替换conf文件夹下所有文件（就是将原有的hadoop-0.19.1更名为hadoop-0.19.1-oldverstion,然后解压hadoo...

2009-11-13 08:35:47 · 353 阅读 · 0 评论
hadoop作业reduce过程调优使用到的参数笔记

reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以，为了优化reduce的执行时间，hadoop中是等job的第一个map结束后，所有的reduce就开...

原创 2011-02-25 18:09:31 · 268 阅读 · 0 评论
hadoop作业map过程调优使用到的参数笔记

参数：io.sort.mb（default 100）当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中，这个buffer默...

原创 2011-02-25 17:25:15 · 174 阅读 · 0 评论
修改Hadoop集群的备份数

之前dfs.replication值为3，运行一段时间之后我使用完了磁盘空间，所以呢，现在我想通过降低备份的个数来释放空间。那么对于之前存储的文件会自动把备份数改为1吗？还是需要手动执行命令来执行呢？ dfs.replication这个参数其实只在文件被写入dfs时起作用，虽然更改了配置文件，但是不会改变之前写入的文件的备份数。但是可以通过如下命令更改备份数： bin/h...

2011-02-25 14:03:54 · 749 阅读 · 0 评论
基于Hadoop的一些工具一句话介绍

Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。 Chukwa 是基于Hadoop集群中监控系统，可以用他来分析和收集系统中的数据(日志) Hive 是DataWareHouse 和 Map Reduce交集，适用于ETL方面的工作 HBase 是一个面向列的分布式数据库。 Map ...

2011-02-17 16:05:13 · 143 阅读 · 0 评论
hadoop自动清除日志文件的配置方法

hadoop集群跑了很多的任务后在hadoop.log.dir目录下会产生大量的日志文件。可以通过配置core-site.xml文件让集群自动清除日志文件： <property> <name>hadoop.logfile.size</name> <value>10000000</value> <...

2011-01-19 17:57:55 · 864 阅读 · 0 评论
zookeeper的简易安装配置

官网的user guide在这： http://hadoop.apache.org/zookeeper/docs/current/zookeeperStarted.html#sc_RunningReplicatedZooKeeper zookeeper的配置只需要更改两个文件一个是 ./conf/zoo.cfg 一个是zoo.cfg中配置的dataDir的目录下的myid文件，这个...

2011-01-12 17:24:10 · 115 阅读 · 0 评论
【2】Hadoop 配置

Hadoop Configuration 新增hadoopuser用户 [root@noc rou]# adduser bash: adduser: command not found [root@noc rou]# cd /usr/bin/ [root@noc bin]# ln -s /usr/sbin/adduser adduser [root@noc bin]# adduser ...

2009-09-26 21:23:01 · 126 阅读 · 0 评论
【3】Hadoop中常出现的错误以及解决方法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。/etc/security/limits.confvi /etc/security/lim...

2009-11-14 12:23:44 · 156 阅读 · 0 评论
【1】Hadoop 介绍

Hadoop框架中最核心的设计就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算存储提供了底层支持。 MapReduce从它名字上来看就大致可以看出个缘由...

2009-11-14 12:15:37 · 113 阅读 · 0 评论
配置hadoop使用lzo对中间数据进行压缩

分3步完成 1.需要使用root安装liblzo动态链接库 #root cp ./lib64/liblzo2.so.2.0.0 /lib64 cd /lib64/ ln -s liblzo2.so.2.0.0 liblzo2.so ln -s liblzo2.so.2.0.0 liblzo2.so.2 --检查下是否拷贝进去了 ls -l /lib64|grep lzo|w...

2012-05-18 11:45:17 · 343 阅读 · 0 评论

Hadoop

作者: iteye_5304

【4】Hadoop HDFS 版本升级

hadoop作业reduce过程调优使用到的参数笔记

hadoop作业map过程调优使用到的参数笔记

修改Hadoop集群的备份数

基于Hadoop的一些工具一句话介绍

hadoop自动清除日志文件的配置方法

zookeeper的简易安装配置

【2】Hadoop 配置

【3】Hadoop中常出现的错误以及解决方法

【1】Hadoop 介绍

配置hadoop使用lzo对中间数据进行压缩