
Hadoop
文章平均质量分 71
nourewang
这个作者很懒,什么都没留下…
展开
-
对hadoop第一个小程序WordCount的简单解释.
package com.test;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;impo原创 2013-06-17 17:25:03 · 449 阅读 · 0 评论 -
Hadoop平台优化综述(一) <转>
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和 容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是master/原创 2013-06-17 17:26:51 · 416 阅读 · 0 评论 -
Hadoop平台优化综述(二)<转>
4. 从系统实现角度进行优化4.1 在可移植性和性能之间进行权衡论文[16]主要针对HDFS进行了优化,它分析了HDFS性能低下的两个原因:调度延迟和可移植性假设。(1) 调度延迟Hadoop采用的是动态调度算法,即:当某个tasktracker上出现空slot时,它会通过HEARBEAT(默认时间间隔为3s,当集群 变大时,会适当调大)告诉jobtracker,之后原创 2013-06-17 17:26:48 · 968 阅读 · 0 评论 -
HDFS 文件系统操作
HDFS适合做:存储大文件。上G、T甚至P。一次写入,多次读取。并且每次作业都要读取大部分的数据。搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。HDFS不适合做:实时数据获取。如果有这个需求可以用HBase。很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度、owner原创 2013-06-17 17:26:44 · 489 阅读 · 0 评论 -
Hadoop单机环境配置 <转>
关于Hbase的介绍,可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详,要么ungeliable.于是记录一下自己的安装配置过程,做个STEP BY STEP的图文并茂的教程,谨防自己以后忘记原创 2013-06-17 17:26:17 · 388 阅读 · 0 评论 -
Hadoop中文件读写(Java) <转>
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间文件原创 2013-06-17 17:26:14 · 631 阅读 · 0 评论 -
Hadoop TaskScheduler浅析 <转>
TaskScheduler, 顾名思义,就是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按 InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务。具体应该分派一些原创 2013-06-17 17:25:36 · 639 阅读 · 0 评论 -
Hadoop OutputFormat浅析 <转>
在 Hadoop中,OutputFormat和InputFormat是相对应的两个东西。相比于InputFormat,OutputFormat似乎没 有那么多细节。InputFormat涉及到对输入数据的解析和划分,继而影响到Map任务的数目,以及Map任务的调度(见《Hadoop InputFormat浅析》)。而OutputFormat似乎像其字面意思那样,仅仅是完成对输出数据的格式化。对原创 2013-06-17 17:25:33 · 683 阅读 · 0 评论 -
Hadoop InputFormat浅析 <转>
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发: http://hiphotos.baidu.com/_kouu/pic/原创 2013-06-17 17:25:29 · 559 阅读 · 0 评论 -
Hadoop 三台主机 集群搭建 详解 <转>
部署环境:OS:Redhat 5.5 EnterpriseJDK:jdk1.6.0_32Hadoop:Hadoop-0.20.2VMWare:7.0节点安排及网络拓扑:节点类型 节点IP 节点hostnamemaster节点 192.168.40.5 masterslave节点 192.168.40.5 master(此时,原创 2013-06-17 17:25:17 · 506 阅读 · 0 评论 -
Hadoop 中的 MapReduce链接作业之预处理和后处理阶段的链接
package com.test;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Pat原创 2013-06-17 17:25:08 · 802 阅读 · 0 评论 -
Hadoop中常用的InputFormat,OutPutFormat类
Hadoop常用的INPUTFORMAT类,下表中列出来InputFormat的其他常用实现,并简要描述了每个实现传递给mapper的键/值对. TestInputFormat在文本文件中的每一行均为一个记录.键(key)为一行的字符偏移,而值(value)为一行的内容Key:LongWritableValue:TextKeyV原创 2013-06-17 17:25:05 · 619 阅读 · 0 评论 -
hadoop eclipse plugin jar 下载
hadoop eclipse plugin jar 下载:http://pan.baidu.com/share/link?shareid=463679&uk=2149617507原创 2013-06-17 17:28:11 · 745 阅读 · 0 评论 -
hadoop 源码SVN地址
hadoop 源码SVN地址参考页面:http://hadoop.apache.org/version_control.html原创 2013-06-17 17:28:08 · 583 阅读 · 0 评论 -
windows和cygwin下hadoop安装配置
在Windows下利用cygwin仿unix环境安装配置Hadoop。1、 所需软件1.1、Cygwin下载地址:http://www.cygwin.com/setup.exe2、 安装2.1、Cygwin安装说明见文章:http://www.zihou.me/2010/02/19/1506/2.2、JDK的安装省略了2.3、hadoop-0.20.1安装将ha原创 2013-06-17 17:27:55 · 778 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析 <转>
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。Hadoop处原创 2013-06-17 17:27:42 · 626 阅读 · 0 评论 -
hadoop JOB 核心功能描述 <转>
转自http://hadoop.apache.org/common/docs/r0.17.2/cn/mapred_tutorial.html有了这个中文描述,hadoop job 的编写变得一如反掌,如果想看更具体的信息,可以去找找雅虎的资料,雅虎的更详细,但是是英文,看起来比较费劲。核心功能描述 应用程序通常会通过提供map和reduce来实现 Mapper和Reducer接口,原创 2013-06-17 17:27:32 · 650 阅读 · 0 评论 -
NativeTask:利用本地执行引擎加速Hadoop <转>
NativeTask是Hadoop MapReduce的高效执行引擎实现。与MapReduce相比,NativeTask获得了不错的性能提升,主要包括更好的排序实现、关键路径避免序列化、避免复杂抽象、更好的利用压缩等。简介NativeTask是一个高性能MapReduce执行单元,支持C++接口。顾名思义,NativeTask是一个本地数据处理引擎,专注于数 据处理本身,在MapReduc原创 2013-06-17 17:26:53 · 1266 阅读 · 0 评论 -
hadoop 配置项的调优参数 <转>
引用原文地址:http://blog.sina.com.cn/s/blog_6a67b5c50100vop9.html dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),mapred.map.tasks.speculative.execution=true mapred.原创 2013-06-17 17:27:44 · 535 阅读 · 0 评论