
hadoop
文章平均质量分 80
ailands
这个作者很懒,什么都没留下…
展开
-
Hadoop安装
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74这里有一点需要强调的就是,务必要确保每台机器的主机名转载 2012-02-15 16:01:23 · 346 阅读 · 0 评论 -
hadoop 操作数据库。DBInputFormat,DBOutputFormat
hadoop 操作数据库。DBInputFormat,DBOutputFormatimport java.io.IOException;import java.util.Iterator;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o原创 2012-03-18 13:16:20 · 1432 阅读 · 0 评论 -
实现按行而不是按文件大小来切分的文件的方法
NLineInputFormat继承自FileInputFormat,它实现按行而不是按文件大小来切分的文件的方法。 重写了FileInputFormat中的getSplits()和createRecordReader()方法,因为NLineInputFormat是在旧的mapreduce框架下写的,这里写了新框架下的NLineIputFormat,代码如下:转载 2012-03-17 20:54:30 · 832 阅读 · 0 评论 -
Hadoop中的数据库访问以及注意事项
Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.ma转载 2012-03-16 10:33:42 · 993 阅读 · 0 评论 -
FileInputFormat分析
一. 程序简介 在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。 InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplit转载 2012-03-15 15:51:34 · 863 阅读 · 0 评论 -
hadoop中mapreduce部分执行流程
概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。JobClient转载 2012-03-27 17:24:25 · 1210 阅读 · 0 评论 -
hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构FSImageNamenode 会将 HDFS 的文件和目录元数据存储在一个叫 fsimage 的二进制文件中,每次保存 fsimage 之后到下次保存之间的所有 hdfs 操作,将会记录在 editlog 文件中,当 editlog 达到一定的大小( bytes ,由 fs.checkpoint.size 参数定义)或从上次保存过后一定时间段过后( s转载 2012-03-27 17:19:52 · 601 阅读 · 0 评论 -
Hadoop是怎么分块的
hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项进行划分。 dfs.block.size 67108864 The default block size转载 2012-03-27 17:18:25 · 561 阅读 · 0 评论 -
Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不转载 2012-03-27 17:17:14 · 1286 阅读 · 0 评论 -
Hadoop 伪分布式下更换默认hadoop.tmp.dir路径
hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,因为linux一次重启,文件就可能被删除。按照hadoop Getting Start中Single Node Setup一节中的步骤走下来之后,伪分布式已经运行起来了。怎么更改默认的hadoop.tmp.dir路径,并使其生效转载 2012-02-28 22:27:53 · 1400 阅读 · 0 评论 -
在Eclipse 安装hadoop插件的问题
对于Hadoop开发者来讲,通过JAVA API编程是进入Map-Reduce分布式开发的第一步。由于Eclipse本身并没有提供对MapReduce编程模式的支持,所以需要一些简单的步骤来实现。1. 安装Hadoop。本文的Hadoop是部署在虚拟机上的伪分布模式。相关软件环境如下:JDK: sun jdk1.6.0_30Hadoop: hadoop-0.20.203.0L转载 2012-02-19 11:03:19 · 1855 阅读 · 0 评论