- 博客(20)
- 收藏
- 关注
原创 oozie的安装与使用
oozie的安装与使用oozie的介绍:oozie是一个任务调度的框架,由cloudera公司开源,所有的调度任务由一个mr程序去启动,主要使用一种有向无环图的方式来管理执行任务,定义的语言使用xml来定义,如果需要单独使用oozie,使用azkaban替换使用,这里可以将oozie和hue整合之后来使用oozie的架构:客户端:主要用于提交任务服务端:主要用于接收任务,准备执行,运行在...
2019-01-03 12:41:08
463
原创 Hue的安装
Hue的安装Hue的安装支持多种方式,包括rpm包的方式进行安装,tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,我们这里使用tar.gz包的方式来安装。下载Hue的压缩包并上传linux解压Hue的压缩包的下载地址:http://archive.cloudera.com/cdh5/cdh/5/我们这里使用的是CDH5.14.0这个对应的版本,具体下...
2018-12-22 21:29:16
261
原创 通过本地yum源安装impala
通过本地yum源安装impalaimpala的环境准备需要提前安装好Hadoop和hive这两个框架(可在我的博客中找到CDH版本的hive和hadoop的安装详解)并且hive需要在所有的impala安装的节点上面都要有,因为impala需要引用hive的依赖包,hadoop的框架需要支持C程序访问接口,只要在hadoop的安装目录下的lib目录有libhadoop.so.1.0.0这类文件...
2018-12-22 20:50:11
1562
2
原创 java执行shell命令
java执行shell命令需求描述:在实际工作中,总会有些时候需要我们通过java代码通过远程连接去linux服务器上面执行一些shell命令,包括一些集群的状态管理,执行任务,集群的可视化界面操作等等,所以我们可以通过java代码来执行linux服务器的shell命令为了解决上述问题,google公司给提出了对应的解决方案,开源出来了一个jar包叫做sshxcute,通过这个jar包我们可以...
2018-12-19 11:37:43
2070
原创 sqoop数据迁移
sqoop数据迁移概述:sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等工作机制:是将导入和导出的命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要对inp...
2018-12-19 10:45:49
618
原创 工作流调度器azkaban
工作流调度器azkaban官网:https://azkaban.github.io/一个完整的数据分析系统,通常都是由大量的任务单元来组成的,各个单元之间存在时间先后顺序以及前后依赖的关系,为了更好的组织这样的计划,需要一个工作流调度系统来调度。工作流调度的实现方式:简单的任务调度:直接使用linux的crontab来定义复杂的任务调度:开发调度平台或使用现成的开源调度系统比如ooize...
2018-12-18 20:53:23
367
原创 Hive调优
Hive调优1、Fetch抓取(Hive可以避免进行mapreduce)在hive中对于某些查询,并不需要使用mareduce计算,例如我们在select * from employee,在这种情况下,可以直接去employee的存储目录,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老...
2018-12-17 19:33:53
226
原创 Hive的介绍与使用
Hive介绍与使用数据仓库的基本介绍数据仓库的基本概念:英文是datawarehourse数据仓库,主要用于存储数据和分析性报告以及决策支持,不会产生数据,也不会消费数据数据仓库的主要特征:面向主题:有确切的分析目标集成性:相关的数据都会被放入数据仓库,便于下一步的分析非易失性:数据一旦进入数据仓库不会轻易的改变时变性:根据不同的需求,会产生一些不同的分析维度数据库与数据仓库的区...
2018-12-15 15:16:46
354
原创 mapreduce的join算法编程案例
mapreduce编程案例map端的join算法1、原理阐述适用于关联表中有小表的情形,可以将小表发送到所有的map节点,这样map节点就可以在本地对自己读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度2、实例:两表数据:商品表数据p0001,小米5,1000,2000p0002,锤子T1,1000,3000订单表数据1001,20150...
2018-12-13 17:15:40
278
原创 MapReduce增强
MapReduce增强1、分区在mapreduce中,通过指定分区将一个区的数据发送到同一个reduce中处理,分区数不能大于reduceTask的数量注意:在进行分区时,只能打成jar包发布到集群上去运行,不能在本地运行在需要分区时,需要编写一个自定义的partitioner类并且继承Partitioner这个类,传入map阶段的输出结果,重写其中的getPartition方法,通过返回...
2018-12-12 16:41:19
164
原创 分布式计算框架MapReduce入门
分布式计算框架MapReduce入门mapreduce的核心思想是:分而治之map:把复杂的任务分解成若干的简单任务来并行执行,前提是这些小任务可以并行计算,彼此之间没有依赖reduce:对map阶段的结果进行汇总MapReduce编程规范和示例编写mapreduce的编程模型mapreduce的开发一共有八个步骤:其中map阶段分为2个步骤,shuffle阶段四个步骤,reduce阶...
2018-12-12 09:29:21
216
原创 分布式文件系统HDFS
分布式文件系统HDFSHDFS的基础架构1、NameNode是一个中心服务器,负责管理文件系统的名字空间以及客户端对文件的访问2、文件操作,namenode是负责文件元数据的数据,datanode负责处理文件的读写请求,跟文件相关的数据流不经过namenode,值询问数据和哪个datanode有联系3、副本的存放位置由namenode来控制,根据全局情况来决定,读取文件时namenode尽...
2018-12-10 20:20:21
192
原创 centos6.9下安装zookeeper及shell操作
zookeeper介绍及集群环境搭建zookeeper概述zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中的应用系统的一致性问题,例如在避免在同时处理同一数据时出现脏读。zookeeper本质是一个分布式的小文件存储系统,提供类似于文件系统的目录树方式的数据存储,并且对树中的节点进行有效的管理。zookeeper的架构zookeeper集群中有:leader,f...
2018-12-08 14:04:15
199
原创 centos6.9下编译CDH版的Hadoop
centos6.9下CDH版本的Hadoop重新编译由于CDH提供的Hadoop安装包没有提供带C程序访问的接口,所以我们在使用本地库(进行压缩和支持c程序)时会出现问题。编译环境的准备编译需要的安装包:链接:https://pan.baidu.com/s/1htfW8hU5Bj6rxPN7Eap6Kw提取码:2ac0准备linux环境准备一台虚拟机,内存4G或以上,硬盘40G或以上...
2018-12-07 22:50:36
166
原创 Scala编程(三)高级特性
Scala编程(三)高级特性模式匹配Scala有一个十分强大功能:模式匹配。类似于java中的switch case 语法,即对一个值进行条件判断,然后针对不同的条件,进行不同的处理。另外Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配。1.匹配字符串object matchDemo1 extends App { //定义一个字符串数组 val course = ...
2018-12-03 20:41:45
375
原创 Scala编程(二)面向对象编程
Scala编程(二)面向对象编程类1.类的定义//scala类class Person { //用val定义的成员变量,只提供了getter方法 val id = "1234" //用var定义的成员变量,提供了setter和getter方法 var name = "jack" var age = 20 //方法 def sleep()={ printl...
2018-12-01 21:22:05
374
原创 Scala编程(一)
Scala编程(一)Scala的特点Scala是一种多范式的编程语言,其设计的初衷是为了集成面向对象和函数是编程的各种特性,Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序(Scala源代码会被编译成Java字节码,它可以运行于JVM之上,并可以调用现有的Java类库)。开发环境搭建1.安装JDKScala源代码会被编译成Java字节码,它可以运行于JVM之上,并...
2018-11-30 20:41:30
590
1
原创 Flume 的基本使用
Flume 的基本使用Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG(originalgeneration),Flume1.X 版本的统称 Flume NG(next generation)。由于 FlumeNG 经过核心组件、核心配置以及代码架构重构,与 ...
2018-11-26 19:06:23
248
原创 深入MapReduce
深入MapReducemapreduce的输入和输出mapreduce运行在<K,V>键值对上,在mapreduce流程中,会有三组键值对map的运行流程第一阶段:根据输入目录中的文件的大小,进行逻辑分片(默认情况下,Split size = Block size = 128MHadoop2.X后的块大小)每个切片由一个maptask处理。第二阶段:把切片中的每行内容处理...
2018-11-25 23:00:25
207
原创 centos6.5搭建Hadoop集群
centos6.5搭建Hadoop集群准备工作CentOS-6.5-x86_64-bin-DVD1.isolinux编译后的Hadoop安装包: hadoop-2.7.4.tar.gzjdk: jdk-8u65-linux-x64.tar.gz创建三个虚拟机通过ifconfig | more 命令查看各个虚拟机的ip地址ifconfig | more修改主机名和IP的映射...
2018-11-21 15:34:28
386
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人