
Bigdatda-Hadoop
礼彬fly
这个作者很懒,什么都没留下…
展开
-
Hadoop分布式文件系统:架构和设计
引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,心跳检测和重新复制集群均衡数据完整性元数据磁盘错误快照数原创 2015-08-30 13:25:20 · 1011 阅读 · 0 评论 -
hadoop源码之Job提交
1、Job提交编写MapReduce代码最后会调用"Job.waitForCompletion(true);",将作业提交到集群中,并等待完成。1.1、waitForCompletionverbose参数用来决定是否将运行进度等信息输出给用户。 JobState中Job的状态:定义好等待运行的和正在运行中的两种Job状态。 准备好未执行的Job会调用submit();原创 2016-08-27 11:17:32 · 958 阅读 · 0 评论 -
Hadoop 的PID路径问题
linux下 /tmp 目录会定时清理。Hadoop启动后的PID文件默认配置确是保存在 /tmp 目录下的,所以这很危险。在集群运行一段时间后,停Hadoop相关服务是会出现类似:no namenode to stop 的错误提示。一般生产环境中我们需要重新修改PID的保存路径。 正常Hadoop进程: 半个多月没用,关闭出现异常。。 查看tmp目录:原创 2016-06-03 21:07:39 · 3892 阅读 · 1 评论 -
Hadoop的JobControl设计及用法
JobControl设计及用法1、JobControl设计原理分析:JobControl由两个类组成:Job和JobControl。Job类封装了一个MapReduce作业及其对应的依赖关系,主要负责监控各个依赖作业的运行状态,一次更新自己的状态。作业刚开始处于WAITING状态。如果没有依赖作业或者所有作业均已运行完成,则进入READY状态。一旦进入REDAY状态,则原创 2016-02-27 13:18:53 · 4057 阅读 · 0 评论 -
Hadoop自定义分组Group
自定义分组MyGroup:主要是继承WritableComparator类,重写compare函数我这里重写的是该源码函数:/** Compare two WritableComparables. * * The default implementation uses the natural ordering, calling {@link * Co原创 2016-04-01 11:01:47 · 2391 阅读 · 0 评论 -
Hadoop contrib介绍
Hadoop Contrib是Hadoop代码中第三方公司贡献的工具包,一般作为Hadoop kernel的扩展功能,它包含多个非常有用的扩展包,本文以Hadoop 1.0为例对Hadoop Contrib中的各个工具包进行介绍。【Gridmix2】Hadoop Gridmix2是针对hadoop系统的基准测试程序。它具备评测大规模数据处理系统所需的各个功能模块,包括:产生转载 2016-03-23 10:52:12 · 1725 阅读 · 0 评论 -
数据按列排序
对一些有指定分隔符的数据,按照对应列数进行自定义排序原始数据:hadoop@sh-hadoop:more sourText.txt hadoop|234|2346|sdfasdgadfgdfgspark|534|65745|fhsdfghdfghhive|65|6585|shsfghfghhbase|98|456|jhgjdfghjtachyon|345|567|sfhr原创 2016-02-23 15:31:32 · 959 阅读 · 0 评论 -
Hadoop的PathFilter使用
Hadoop的PathFilter使用源码接口定义:public interface PathFilter { /** * Tests whether or not the specified abstract pathname should be * included in a pathname list. * * @param path The ab原创 2016-04-01 11:14:17 · 2419 阅读 · 0 评论 -
Hadoop的FileStatus简单使用
Hadoop的FileStatus简单使用FileStatus类继承关系:FileStatus类的属性和方法:输入文件信息:blb@hadoop1:/home/blb/blb$ hdfs dfs -text /user/blb/libin/input/inputpath1.txthadoop aspark ahive ahbase原创 2016-04-01 10:59:07 · 5012 阅读 · 1 评论 -
hadoop的FileSplit简单使用
hadoop的FileSplit简单使用FileSplit类继承关系:FileSplit类中的属性和方法:作业输入:hadoop@hadoop:/home/hadoop/blb$ hdfs dfs -text /user/hadoop/libin/input/inputpath1.txthadoop aspark ahive原创 2016-03-30 09:57:45 · 8278 阅读 · 0 评论 -
Hadoop的ChainMapper/ChainReducer
Hadoop的ChainMapper/ChainReducerChainMapper/ChainReducer主要为了解决线性链式Mapper而提出的。 ChainMapper:/**The ChainMapper class allows to use multiple Mapper classes within a single原创 2016-03-17 18:09:59 · 1191 阅读 · 1 评论 -
MapReduce V1:Job提交流程之JobClient端分析
MapReduce V1:Job提交流程之JobClient端分析我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理活动为主线,并结合源码,分析实际处理流程。下图是《Hadoop转载 2016-02-19 14:52:24 · 2081 阅读 · 0 评论 -
hadoop的Context简单使用
hadoop的Context简单使用作业输入:hadoop@hadoop:/home/hadoop/blb$ hdfs dfs -text /user/hadoop/libin/input/inputpath1.txthadoop aspark ahive ahbase atachyon astorm aredis ahadoop@hadoo原创 2016-03-29 18:07:30 · 5954 阅读 · 0 评论 -
Hadoop的Partitioner
PartitionerHashPartitioner、TotalOrderPartitioner、KeyFieldBasedPartitioner、BinaryPartitionerpublic abstract class Partitioner { public abstract int getPartition(KEY key, VALUE value, int numPa原创 2016-03-04 12:10:10 · 1879 阅读 · 0 评论 -
阿里云Hadoop开发自动打包上传运行maven的pom.xml
目录的输入与输出:pom.xml文件配置内容:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/原创 2016-06-03 21:15:51 · 1831 阅读 · 0 评论