
Hadoop
文章平均质量分 85
BehandTheTime
这个作者很懒,什么都没留下…
展开
-
cascading helloworld 案例
Cascading是一个数据处理的API和查询处理计划,用于定义,共享数据处理工作流,还能在单一计算节点或分布式计算集群上执行数据处理工作流。在单一计算节点,Cascading的本地模式(local mode)可以在部署到集群之前,用于测试代码和处理本地文件。在一个部署了Apache Hadoop的分布式计算集群上,Cascading在hadoop API上增加了一个抽象层,大大简化了Hadoop原创 2017-06-27 14:24:47 · 538 阅读 · 0 评论 -
开源大数据利器汇总
类别名称官网备注查询引擎Phoenixhttps://phoenix.apache.org/Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写Kylinhttp://kylin.ioeBay开源的基于Hadoop的分布式OLAP分析引擎,旨在减少Hadoo原创 2017-03-06 13:22:29 · 1938 阅读 · 0 评论 -
Zookeeper
作者:张云聪链接:https://www.zhihu.com/question/35139415/answer/61562488来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。ZooKeeper & kazoozookeeper作为一个开源的分布式应用协调系统,已经用到了许多分布式项目中,用来完成统一命名服务、状态同步服务、集群管理、分布式应用转载 2017-03-02 19:54:30 · 601 阅读 · 0 评论 -
hive内置函数
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:关系运算Hive支持的关系运算符转载 2017-02-20 14:50:17 · 1077 阅读 · 0 评论 -
MapReduce源码解析之Outputforamt
OutputFormat过程的作用就是定义数据key-value的输出格式,给你处理好后的数据,究竟以什么样的形式输出呢,才能让下次别人拿到这个文件的时候能准确的提取出里面的数据。这里,我们撇开这个话题,仅仅我知道的一些定义的数据格式的方法,比如在Redis中会有这样的设计:[key-length][key][value-length][value][key-length][key][va转载 2017-02-20 13:50:29 · 863 阅读 · 0 评论 -
MapReduce之inputformat源码解析
1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句保证了输入文件会按照我们预设的格式被读取。KeyValueTextInputFormat即为我们设定的数据读取转载 2017-02-18 14:02:09 · 631 阅读 · 0 评论 -
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。- 对现存hive表的分区首先,新建一张我们需要的分区以后的转载 2017-02-15 15:17:30 · 536 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql转载 2017-02-15 13:39:05 · 470 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(三)
4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(),runTaskCleanupTask()等。之后进入正式的工作,主要有这转载 2017-02-13 15:30:03 · 388 阅读 · 0 评论 -
Mapreduce执行过程分析(基于Hadoop2.4)——(一)
转载自:http://www.cnblogs.com/Scott007/p/3836687.html1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce,是转载 2017-02-13 15:26:17 · 520 阅读 · 0 评论 -
Hadoop中reduce端shuffle过程及源码解析
一、概要描述 在Child的main函数中通过TaskUmbilicalProtocol协议,从TaskTracker获得需要执行的Task,并调用Task的run方法来执行。在ReduceTask而Task的run方法会通过Java反射机制构造Reducer,Reducer.Context,然后调用构造的Reducer的run方法执行reduce操作。不同于map任务,在执行reduce任务转载 2017-02-13 13:42:09 · 757 阅读 · 0 评论 -
Hadoop中Map端shuffle过程及源码解析
分析的源码是基于Hadoop2.6.0。 官网上面的MapReduce过程 Map端shuffle的过程: 在执行每个map task时,无论map方法中执行什么逻辑,最终都是要把输出写到磁盘上。如果没有reduce阶段,则直接输出到hdfs上,如果有有reduce作业,则每个map方法的输出在写磁盘前线在内存中缓存。每个map task都有一个环状的内存缓冲区,存储着map的输转载 2017-02-13 13:39:25 · 801 阅读 · 0 评论 -
Hadoop的shuffle过程
转载地址:http://hi.baidu.com/jiangyangw3r/item/1995d758e4c5fd10db163544MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。转载 2017-02-13 13:37:36 · 1082 阅读 · 0 评论 -
YARN resourceManager解析
在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。ResourceManager主要有四种功能:1.处理来自client的请求2.启动和监控ApplicationMaster3转载 2017-01-02 21:13:13 · 1365 阅读 · 0 评论 -
mapreduce 辅助类GenericOptionsParser,Tool和ToolRunner
辅助类GenericOptionsParser,Tool和ToolRunner为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通过ToolRunne转载 2017-01-02 18:29:22 · 2259 阅读 · 0 评论 -
mapreduce shuffle 详解
转载地址:http://hi.baidu.com/jiangyangw3r/item/1995d758e4c5fd10db163544MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。转载 2016-12-28 14:34:37 · 385 阅读 · 0 评论 -
NameNode 高可用整体架构概述
原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。转载 2016-11-21 10:21:19 · 905 阅读 · 0 评论 -
MapReduce之InputFormat详解
1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句保证了输入文件会按照我们预设的格式被读取。KeyValueTextInputFormat即为我们设定的数据读取转载 2016-03-11 20:28:45 · 1278 阅读 · 0 评论 -
如何使用Hadoop的DistributedCache
DistributedCache是Hadoop的一个分布式文件缓存类,使用它有时候能完成一些比较方便的事,DistributedCache第一个比较方便的作用就是来完成分布式文件共享这件事,第二个比较有用的场景,就是在执行一些join操作时,将小表放入cache中,来提高连接效率。 那么,散仙今天要介绍的是如何使用DistributedCache来共享全局的缓存文件。 下面我们转载 2016-03-09 19:31:45 · 563 阅读 · 0 评论 -
Hadoop日志存放路径详解
Hadoop的日志有很多种,很多初学者往往遇到错而不知道怎么办,其实这时候就应该去看看日志里面的输出,这样往往可以定位到错误。Hadoop的日志大致可以分为两类:(1)、Hadoop系统服务输出的日志;(2)、Mapreduce程序输出来的日志。这两类的日志存放的路径是不一样的。本文基于Hadoop 2.x版本进行说明的,其中有些地方在Hadoop 1.x中是没有的,请周知。转载 2016-03-05 15:28:53 · 6603 阅读 · 0 评论 -
Hadoop configuration详解
2.2 Hadoop Configuration详解Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即使用org.apache.hadoop.conf.Configuration处理配置信息。2.2.1转载 2016-03-04 15:21:41 · 619 阅读 · 0 评论 -
Hbase过滤器Filter
HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。通常来说,通过行键,值来筛选数据的应用场景较多。1. RowFilter:筛选出匹配的所有的行,对于这个过滤器的应用场景,是非常直观的:使用BinaryCo转载 2016-02-27 23:02:42 · 484 阅读 · 0 评论 -
MapReduce自定义数据类型
Mapreduce有基本数据类型Text,IntWritable...,也可以由我们自定义数据类型。我们自定义数据类型需要实现接口WritableComparable,基本数据类型也是实现了这个接口。下面是接口WritableComparable的源码可以看到接口WritableComparable继承了两个接口,而自己并没有实现任何方法。下面是Writable接口的源码可原创 2016-02-23 18:14:48 · 914 阅读 · 0 评论 -
Mapreduce实现矩阵乘法
package myHadoop.Hadoop_Matrix;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.m原创 2016-02-22 20:29:56 · 646 阅读 · 0 评论 -
Mapreduce setup和clearup解析
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!转载 2016-02-22 13:44:54 · 1083 阅读 · 0 评论 -
Hadoop学习(二)wordcount源码详解
package myHadoop.hadoop2;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or原创 2015-11-25 21:35:59 · 510 阅读 · 0 评论