
Hadoop
nomad2
<a href="http://www.fi
展开
-
《Hadoop The Definitive Guide》ch02 MapReduce
1. MapReduce data flow with multiple reduce tasks2. Hadoop安装选择pseudo模式,配置文件如下,>> cat core-site.xml fs.default.name hdfs://localhost/原创 2012-07-07 14:41:37 · 1099 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch09 Setting Up a Hadoop Cluster
参考下面的文章配置了一个具有3个节点的集群。http://yymmiinngg.iteye.com/blog/706699http://linleran.iteye.com/blog/287993http://www.cnblogs.com/wayne1017/archive/2007/03/20/678724.html要注意的是,slave节点和master节点的配置原创 2012-07-07 16:31:05 · 651 阅读 · 0 评论 -
Linker error with Hadoop Pipes
see http://stackoverflow.com/questions/6051671/linker-error-with-hadoop-pipes在编译C++代码时,加上-lcrypto原创 2012-07-09 21:20:21 · 604 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch10 Administering Hadoop
1. 集群基准测试程序c01s02h01ate1:nomad2 # hadoop jar /local/hadoop/hadoop-0.20.203.0/hadoop-test-0.20.203.0.jar An example program must be given as the first argument.Valid program names are: DFSCIOTest原创 2012-07-07 16:31:42 · 625 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch08 MapReduce Features
1. 计数器1) 内置计数器2) 用户自定义Java计数器[ate: /local/nomad2/hadoop/tomwhite-hadoop-book-32dae01 ]>> hadoop jar ch08.jar MaxTemperatureWithCounters input/ncdc/all max-temp12/07/03 19:53:21 INFO mapred.Fil原创 2012-07-07 16:29:36 · 652 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch07 MapReduce Types and Formats
MapReduce的数据模型非常简单,它的Map和Reduce函数使用键值对进行输入和输出。本章将深入讨论MapReduce的数据模型,尤其是文本或者二进制类型的数据如何在MapReduce中使用。1. MapReduce的类型map和reduce函数遵循以下的形式:map: (K1, V1) -> list(K2, V2)reduce: (K2, list(V2)) -> lis原创 2012-07-07 16:14:53 · 494 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch06 How MapReduce Works
1. MapReduce的工作原理1) 客户端 提交MapReduce作业。2) jobtracker 协调作业的运行。 jobtracker是一个Java应用程序,它的主类是JobTracker。3) tasktracker 运行作业划分后的任务。tasktracker是一个Java应用程序,它的主类是TaskTracker。4) 分布式文件系统(一般为HDFS),用来在其他实体原创 2012-07-07 16:01:44 · 796 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch04 Hadoop I/O
1. Hadoop comes with a set of primitives for data I/O. Some of these are techniques that are more general than Hadoop, such as data integrity and compression, but deservespecial consideration when d原创 2012-07-07 14:45:31 · 1175 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch13 ZooKeeper
1. 关于ZooKeeper的介绍,http://www.searchtb.com/2011/01/zookeeper-research.htmlzookeeper是一个开源分布式的服务,它提供了分布式协作、分布式同步、配置管理等功能。2. 安装和运行export ZOOKEEPER_INSTALL=/local/honghaos/zookeeper/zookeeper-3.4原创 2012-07-07 16:32:50 · 1451 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch12 HBase
1. 关于HBase的介绍,http://www.searchtb.com/2011/01/understanding-hbase.html 很不错。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似G原创 2012-07-07 16:32:29 · 1295 阅读 · 1 评论 -
《Hadoop The Definitive Guide》ch11 Pig
1. PigPig是一种用于探索大型数据集的脚本语言,专门用于数据的批处理。2. 安装和启动export HADOOP_INSTALL=/local/nomad2/hadoop/hadoop-0.20.203.0export PATH=$PATH:$HADOOP_INSTALL/binexport JAVA_HOME=/usr/lib/jvm/java-6-sun原创 2012-07-07 16:32:07 · 1145 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch05 Developing a MapReduce Application
1. 介绍MapReduce应用开发包含特定的流程。首先,编写map和reduce函数,最好能进行单元测试以保证它们能如期运行。然后写一个驱动程序来运行作业,可以使用数据集中的少量数据从IDE运行,看它是否能够正常运行。2. GenericOptionsParser, Tool和ToolRunner[ate: /local/nomad2/hadoop/tomwhite-hadoop原创 2012-07-07 15:43:08 · 780 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch03 The Hadoop Distributed Filesystem
1. HDFS1.1 block1.2 namenode and datanode2. 命令行示例[ate: /local/nomad2/hadoop/tomwhite-hadoop-book-32dae01 ]>> hadoop fsck / -files -blocksFSCK started by nomad2 from /35.252.129.105 for原创 2012-07-07 14:42:33 · 652 阅读 · 0 评论 -
《Hadoop The Definitive Guide》ch14 Case Studies
1. Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。2. Nutch参考:http://blog.csdn原创 2012-07-08 21:56:39 · 685 阅读 · 0 评论