
Hadoop
文章平均质量分 67
iteye_7851
这个作者很懒,什么都没留下…
展开
-
MapReduce 的最简单解释
Map 是什么We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多...原创 2012-02-23 14:45:55 · 177 阅读 · 0 评论 -
HDFS 中读取数据的方法
方法之一: 通过URL import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net....原创 2012-04-13 13:53:57 · 250 阅读 · 0 评论 -
Hadoop 任务调度
mapred-site.xml 文件 <property> <name>mapred.jobtracker.taskScheduler</name> <value>org.apache.hadoop....原创 2012-03-30 14:52:27 · 129 阅读 · 0 评论 -
Hadoop 运行硬件的选择
Hadoop权威指南上推荐的硬件配置: CPU:2个四核的 intel Xeon 2.0GHZ Memory: 8GB ECC RAM Disk: 4 TB SATA 硬盘 Network:千兆以太网 最少3台 DataNode 节点否则Replication = 3 不能实现。 ...原创 2012-03-16 11:16:49 · 233 阅读 · 0 评论 -
如何配置Hadoop的 Secondary节点 & NameNode节点失效恢复
原创: 第一部分: 如何设置Secondary NameNode节点(单独的) 1. 在masters文件中添加 Secondary节点的主机名。 2. 修改hdfs-default.xml 文件 <property> <name>dfs.http.address</name>...原创 2012-03-16 09:58:25 · 545 阅读 · 0 评论 -
Hadoop SecondaryNameNode 异常
异常信息 2012-03-15 16:52:01,150 WARN org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Checkpoint Period :3600 secs (60 min)2012-03-15 16:52:01,151 WARN org.apache.hadoop.hdfs.server.n...原创 2012-03-15 17:21:15 · 176 阅读 · 0 评论 -
Warning: $HADOOP_HOME is deprecated. 关闭
添加 export HADOOP_HOME_WARN_SUPPRESS=TRUE 到 hadoop-env.sh 中 注意要添加到集群中每一个节点中。 版本:hadoop 0.20.205 原因: Hadoop 在bin/hadoop-config.sh 中对HADOOP_HOME 进行了判断 判断发生的地方:# the root of the Ha...原创 2012-03-15 16:02:23 · 144 阅读 · 0 评论 -
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by, Cluster By,
Hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法1. order by set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的Order by 功能一致,按照某一项...原创 2012-03-09 12:43:12 · 669 阅读 · 0 评论 -
Hadoop Hive 复合数据结构Array,Struct,Maps
在Hive 中如何使用符合数据结构 maps,array,structs 1. Array的使用 创建数据库表,以array作为数据类型 create table person(name string,work_locations array<string>)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'...原创 2012-03-07 16:43:50 · 457 阅读 · 0 评论 -
Hadoop 安装配置
主要安装流程和注意事项 红色两天要特别注意 1. 安装JDK,JRE (jdk-7u3-linux-x64.tar.gz) 64位操作系统2. 设置环境变量JAVA_HOME and PATH (/etc/profile) 对所有用户都生效 JAVA_HOME=/usr/local/jdk1.7.0_03export JAVA_HOME PAT...原创 2012-03-01 16:27:22 · 98 阅读 · 0 评论 -
Hadoop 各参数优化
<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value></property> // 单机Map端最大可执行的M...原创 2012-03-01 11:18:39 · 127 阅读 · 0 评论 -
MapReduce 执行过程分析
问题: 一个或多个文件是怎么样经历Map / Reduce 的执行而得出结果的呢 ? MapReduce 执行流程图原创 2012-03-01 11:12:26 · 154 阅读 · 0 评论 -
Hadoop 分区函数Partitioner
分区函数MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量(R)。我们在中间key上使用分区函数来对数据进行分区,之后再输入到后续任务执行进程。一个缺省的分区函数是使用hash方法(比如,hash(key) mod R)进行分区。hash方法能产生非常平衡的分区。然而,有的时候,其它的一些分区函数对key值进行的分区将非常有用。比如,输出的key值...原创 2012-03-01 10:45:17 · 293 阅读 · 0 评论 -
Hadoop: The Definitive Guide, 3rd Edition (Early Release)
Hadoop: The Definitive Guide, 3rd Edition (Early Release)Book DescriptionWith this digital Early Release edition of Hadoop: The Definitive Guide, you get the entire book bundle in its earl...原创 2012-02-24 10:48:56 · 151 阅读 · 0 评论 -
Hbase 介绍
http://www.slideshare.net/BlueDavy/hbase-7532180http://www.searchtb.com/2011/01/understanding-hbase.htmlhttp://www.tbdata.org/archives/1509原创 2012-02-23 15:44:52 · 92 阅读 · 0 评论 -
Hadoop 自动安装脚本
Email:biansutao[@]gmail[DOT]com还不能实现完全自动安装,只能算半自动的。进行交互主要障碍有两点:1. ssh-keygen的时候需要点击回车。2. passwd 需要设置密码 如果谁能解决以上两点,欢迎email给我。另外:需要JDK和Hadoop压缩包第一步: 设置Root用户的SSH 无密码访问 为了之后修改Hosts文件,配置环境变量,...2012-05-08 16:57:39 · 190 阅读 · 0 评论