- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 MapReduce实现join
在我们平常的大数据项目开发和项目需求中,可能需要我们完成在关系型数据库中十分常见的join类功能。那么针对这种类型的功能需求,用hadoop中的MapReduce模型应该要怎么实现呢?本篇文章将针对这种功能需求提供几种实现选择。首先,我的开发环境为:jdk1.7,hadoop2.6.4,CentOS71. 利用DistributedCache实现JoinDistributedCache:这是Hado
2016-11-30 19:33:25
624
原创 Eclipse中编写MapReduce并提交运行
在实际的开发过程中,我们都是在IDE上编写好我们的业务应用程序之后,打包成jar包再提交至Hadoop集群上执行任务。本文我将介绍在eclipse中开发mapreduce应用的详细过程以及编写mapreduce应用的两种不同方式。为了便于各个jar包的管理和依赖解决,所以我选用的Maven构建工具来构建项目环境,如对maven不熟的朋友请自行google或百度解决。下面均以最简单的WordCount
2016-11-21 19:16:05
1082
翻译 MapReduce教程指导
概述Hadoop MapReduce是一个软件框架,为在大集群中海量数据的并行处理提供了一种易于编写实现的编程模型,以及可靠的,容错的方式。一个MapReduce job通常将输入数据集分割为独立的块,每个块由单独的map任务以完全并行的方式来处理。框架会对map任务的输出做排序,然后这些输出结果数据会输入到reduce任务。通常,整个job的输入和输出数据都存放在一个文件系统中。框架关心的是任务的
2016-11-21 19:08:01
720
翻译 YARN架构
Hadoop YARN又名MapReduce NextGen和MRv2。YARN的基本思想是把集群资源管理功能和任务调度监控功能分为两个独立的进程,就是基于这种思想产生了一个全局ResourceManager(RM)和基于每个应用而产生的ApplicationMaster(AM)。RecourseManager和NodeManager形成了数据计算的框架。RecourseManager是集群中所有应
2016-11-21 19:06:29
406
翻译 SparkSQL编程指导
1. OverviewSpark SQL是spark提供的一个结构化数据处理模块。Spark提供的SparkSQL接口主要是针对数据的结构化及其计算,并针对这些方面做了大量的优化处理。SparkSQL提供了两种方式来让我们操作结构化数据:SQL和Dataset API。2. SQLSparkSQL可以直接执行sql查询,Spark SQL也可以从已经存在的hive中读取数据(关于这部分的配置在下
2016-11-10 18:57:37
2468
翻译 Spark2.0 Programming Guide(Spark2.0编程指导)
1. Overview-概览每一个Spark应用都是由包含一个main方法的driver program组成,并且能够在一个集群上执行一系列的并行操作。Spark的第一个主要抽象概念是RDD(Resilient distributed dataset):弹性分布式数据集-分布在集群的各个节点上能够被并行操作的被分割好的数据集。RDD初始化可以由在hdfs(或其他hadoop支持的文件系统)上的文件
2016-11-09 19:14:35
516
原创 Spark2.0安装配置
spark2配置多个节点的集群环境配置运行测试1. 下载截止我写这篇文章的日期,spark的最新版本为2.0.0,因为我测试环境的hadoop版本是2.6.4的,所以我选择spark的版本是2.0.0,Hadoop是2.6;进入Apache Spark官网的下载页下载。2. 环境配置集群环境: 主机名 IP hadoop环境 Scala环境 Java环境 master
2016-11-03 14:48:18
1570
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人