
Hadoop
eryk86
这个作者很懒,什么都没留下…
展开
-
apache hadoop 2
deration使用多个独立的Namenodes/Namespaces。Namenodes独立运行且不需要与其他namenode协作运行。datanodes为所有namenode提供通用的blocks存储服务。每个datanode注册到集群中所有的namenode上。datanode发送heartbeats、block reports和执行从namenode传来的命令。 下一代MapReduce,又名YARN或MRv2 新的架构在hadoop-0.23已经介绍过了,把jobtracker划分成两原创 2012-06-14 00:54:06 · 77 阅读 · 0 评论 -
自定义hadoop map/reduce输入文件切割InputFormat
基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类进行实现的。 那么,FileInputFormat是怎样将他们划分成splits的呢?FileInputFormat只划分比HDFS block大的文件,所以如果一个文件的大小比block小,将不会被划分,这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。 hadoop默认的InputFormat是TextInput原创 2011-07-01 11:17:27 · 98 阅读 · 0 评论 -
Hadoop开发常用的InputFormat和OutputFormat
发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,LongWritable类型),value是每一行的内 容,Text类型。KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,第一部分为key,剩下的部分为value;如果没有分隔符,整行作为 key,value为空SequenceFileInputFormat用于读取sequence file。原创 2011-07-01 11:02:49 · 73 阅读 · 0 评论 -
hadoop inputformat
原创 2011-07-01 10:09:19 · 113 阅读 · 0 评论 -
hadoop namespaceID err
doop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity: 0 (0 KB)DFS Remaining: 0 (0 KB)DFS Used: 0 (0 KB)DFS Used%: ?%-------------------------------------------------Datanodes available: 0 (0 total, 0 dead)使用bin/stop原创 2011-05-31 10:24:02 · 115 阅读 · 0 评论 -
启动hadoop后没有datanodes的问题
e一直试图链接namenode而连接不上,只要开机后把/etc/hosts 下的127.0.0.1 localhost localhost.local删除即可。所以ubuntu10.10的hadoop用户注意了,有可能就是这个问题导致的启动hadoop后没有datanodes 我的机器需要删除 127.0.0.1 localhost.localdomain localhost::1 xuqi86-laptop localhost6.localdomain6 l原创 2011-04-13 21:22:00 · 522 阅读 · 0 评论 -
hadoop 文章列表
oop 进行分布式数据处理,第 3 部分: 应用程序开发 5.用 Hadoop 进行分布式并行编程, 第 1 部分6.用 Hadoop 进行分布式并行编程, 第 2 部分7.用 Hadoop 进行分布式并行编程, 第 3 部分 在blogjava.net 上搜索 hadoop 在youkuaiyun.com 上搜索 hadoop http://hadoop.apache.org/common/docs/r0.18.2/cn/原创 2010-11-04 20:57:44 · 83 阅读 · 0 评论 -
《hadoop》权威指南 MapReduce
原创 2010-10-26 14:10:50 · 95 阅读 · 0 评论 -
《hadoop权威指南》第二章的例子(修改已可用)
原创 2010-10-26 11:05:35 · 75 阅读 · 0 评论 -
Hadoop组成简介
原创 2010-10-25 17:40:22 · 130 阅读 · 0 评论 -
hadoop 遇到一个任务失败的错误
open filename /user/eryk/input/conf 额,发现是一个命令打的有问题错误的命令:eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf/ input包含的内容:eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsrdrwxr-xr-x - eryk supergroup 0 2010-10-25 16:49 /user/eryk原创 2010-10-25 16:49:02 · 137 阅读 · 0 评论 -
hadoop执行stop-all.sh的时候总是出现 “no namenode to stop”
可以进行正常操作了 原因还不明白,学习中。。。 问题是出在我每次start-all 后,关机就直接关机了,没有先执行stop-all ,导致内存里的信息丢失,所以关机前记得执行一次stop-all.sh 就可以了原创 2010-10-25 13:39:59 · 184 阅读 · 0 评论 -
hadoop常见配置含义备忘录
原创 2010-10-25 10:42:04 · 85 阅读 · 0 评论 -
Hadoop为什么处理小数据量时效果不好
原创 2010-10-25 10:35:42 · 110 阅读 · 0 评论 -
hadoop0.18.3 到 0.20.2
: 最大的变化是作業配置那部分,新的版本里面不再使用JobConf, 而是使用了Job,这里的Job继承自JobContext,它集成了JobConf 。Job里面还是用了相同的设置inputPath, outputPath, inputFormat, outputFormat之类的,主要的不同我认为有以下几个:1. 初始化不一样, 前者: JobConf conf = new JobConf(getConf(), WordCount.class ); 后才: Job原创 2011-07-01 13:10:46 · 107 阅读 · 0 评论 -
Changes of Hadoop 0.20笔记
原创 2011-07-01 13:21:04 · 72 阅读 · 0 评论 -
hadoop乱码
r -Dfile.encoding=utf-8 -Duser.language=zh" mapred-site.xml<property> <name>mapred.child.java.opts</name> <value>-Dfile.encoding=utf-8 -Duser.language=zh -Xmx200m</value>原创 2011-12-12 14:36:02 · 139 阅读 · 0 评论 -
Partitioner, SortComparator and GroupingComparator in Hadoop
mparator c);job.setGroupingComparatorClass(RawComparator c); 数据在被map处理过之后,会根据 Partitioner 定义的规则,把中间结果分发到特定的reduce。Partitioner<Key, Value> 包含一个方法:public int getPartition(Key k, Value v, int parts)Java代码 public static原创 2011-12-12 14:15:05 · 77 阅读 · 0 评论 -
HDFS Federation设计动机与基本原理
原创 2011-12-06 10:50:08 · 99 阅读 · 0 评论 -
Apache Hadoop 0.23 MapReduce 2.0 (MRv2 or YARN) 介绍
管理和任务的调度与监视。这个想法创建一个全局的资源管理(global ResourceManager (RM))和为每个应用创建一个应用管理(ApplicationMaster (AM))。一个应用可以使一个MR jobs的经典场景或者是一串连续的jobs。 ResourceManager 和每个slave节点的NodeManager (NM)构成一个资源估算框架。ResourceManager 对在系统中所有应用的资源分配拥有最终的最高级别仲裁权。 实际上每个应用的ApplicationM原创 2011-12-05 15:27:14 · 109 阅读 · 0 评论 -
Apache Hadoop 0.23 HDFS Federation介绍
原创 2011-12-04 23:31:30 · 123 阅读 · 0 评论 -
读hadoop0.23源码(1):Job
) throws IOException, InterruptedException, ClassNotFoundException { if (state == JobState.DEFINE) { submit(); } if (verbose) { jobClient.monitorAndPrintJob(c原创 2011-11-23 10:47:59 · 82 阅读 · 0 评论 -
MapReduce名词解释
原创 2011-11-08 10:23:24 · 242 阅读 · 0 评论 -
hadoop问题汇总
机器。两个时钟同步以后,过一段时间时钟又不同步了。 解决办法:使用NTP服务器定时同步各系统时钟。原创 2011-11-02 09:39:20 · 75 阅读 · 0 评论 -
进程间通信IPC、LPC、RPC
原创 2011-09-06 11:20:28 · 118 阅读 · 0 评论 -
hadoop的一个恶心错误
然后把master的/etc/hosts文件里的127.0.0.1删掉以后,重启集群就正常了。。。 有些版本的linux重启机器后会在/etc/hosts文件上面加上127.0.0.1,删掉就可以了原创 2011-09-02 10:17:37 · 99 阅读 · 0 评论 -
Hadoop的配置类 Configuration
原创 2011-08-04 14:11:08 · 139 阅读 · 0 评论 -
hadoop错误:"failed to report status for 600 seconds"
neither reads an input, writes an output, nor updates its status string. </description></property> 由于执行合并索引操作时间较长,所以超过了600秒的时间限制,把这个值改高点就不会报错了原创 2011-07-19 14:39:58 · 81 阅读 · 0 评论 -
hadoop/mapred 优化方法
因子,mapred.child.java.opts,mapred.tasktracker.map.tasks.maximum,mapred.tasktracker.reduce.tasks.maximum,mapred.map.tasks,mapred.reduce.tasks,fs.inmemory.size.mb,dfs.block.size等等 二. 在同一个job内完成尽可能多的计算任务, 主要是设计key和自定义OutputFormat, 将能合并的计算任原创 2011-07-14 08:30:30 · 77 阅读 · 0 评论 -
Hadoop传递参数的方法总结
原创 2011-07-07 14:39:07 · 106 阅读 · 0 评论 -
hadoop hdfs的一些用法
static { URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void main(String[] args) throws Exception { InputStream in = null; try { in = new URL(args[0]原创 2011-07-04 09:25:34 · 99 阅读 · 0 评论 -
ubuntu 编译 hadoop 2.2.0 和hbase 0.96.1 过程记录
打patch:https://issues.apache.org/jira/browse/HADOOP-10110错误信息:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-site-plugin:3.0:site (default-site) on project hadoop-main: Exec原创 2014-02-19 10:27:58 · 874 阅读 · 0 评论 -
Partitioner, SortComparator and GroupingComparator in Hadoop
hadoop 0.20.2 api里面,作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法:job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(R原创 2013-01-15 17:17:32 · 347 阅读 · 0 评论 -
hadoop乱码
文件存入hadoop出现乱码,尤其是在windows下的cygwin环境测试时候 囧 建议使用如下配置,而不是去改hadoop源码: hadoop-env.shexport HADOOP_OPTS="-server -Dfile.encoding=utf-8 -Duser.language=zh" mapred-site.xml mapred.child.j原创 2013-01-15 17:17:35 · 444 阅读 · 0 评论 -
hadoop的一个恶心错误
今早机器被网管重启了,启动hadoop发现节点都启动不了slave一直是 not available yet,Zzzzz... 看了一下master的端口 netstat - lpnt发现9000端口的IP是127.0.0.1 然后把master的/etc/hosts文件里的127.0.0.1删掉以后,重启集群就正常了。。。 有些版本的linux重启机器后会在/et原创 2013-01-14 11:49:31 · 266 阅读 · 0 评论 -
hadoop namespaceID err
今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity:原创 2013-01-14 11:48:21 · 276 阅读 · 0 评论 -
启动hadoop后没有datanodes的问题
ubuntu10.10每次开机后会在/etc/hosts自动生成一行代码:127.0.0.1 localhost localhost.local,而ubuntu10.04版本则不会。在hadoop中,由于127.0.0.1与主机绑定,导致datanode一直试图链接namenode而连接不上,只要开机后把/etc/hosts 下的127.0.0.1 localhost localhost.loca原创 2013-01-14 11:48:04 · 363 阅读 · 0 评论 -
hadoop 文章列表
1.使用 Linux 和 Hadoop 进行分布式计算2.用 Hadoop 进行分布式数据处理,第 1 部分: 入门3.用 Hadoop 进行分布式数据处理,第 2 部分: 进阶 4. Hadoop 进行分布式数据处理,第 3 部分: 应用程序开发 5.用 Hadoop 进行分布式并行编程, 第 1 部分6.用 Hadoop 进行分布式并行编程, 第 2原创 2013-01-09 10:26:09 · 271 阅读 · 0 评论 -
《hadoop》权威指南 MapReduce
为什么最佳分片的大小与块大小相同? 它是最大的可保证存储在单个节点上的数据量。如果分区跨越两个快,那么对于任何一个HDFS节点而言,基本不可能同时存储这两块数据,因此此分布的某部分必须通过网络传输到节点,这与使用本地数据运行map任务相比,显然效率更低。 map任务把输入写入本地磁盘,而不是HDFS。因为map的输出作为中间输出:而中间输出则被reduce任务处理后产生最原创 2013-01-09 10:25:50 · 249 阅读 · 0 评论 -
《hadoop权威指南》第二章的例子(修改已可用)
额,我看了一下1990年气象数据的格式,已经和书上有很大出入了,新的数据已经格式化了,后面附件里有,我用的时候把第一行的名称都删掉了。而且也不是int的了,我用的是double MaxTemperatureMapper package com.eryk.hadoop.weather;import java.io.IOException;import org.a原创 2013-01-09 10:25:48 · 297 阅读 · 0 评论