lsy107816-优快云博客

原创 oozie的安装与使用

oozie的安装与使用oozie的介绍：oozie是一个任务调度的框架，由cloudera公司开源，所有的调度任务由一个mr程序去启动，主要使用一种有向无环图的方式来管理执行任务，定义的语言使用xml来定义，如果需要单独使用oozie，使用azkaban替换使用，这里可以将oozie和hue整合之后来使用oozie的架构：客户端：主要用于提交任务服务端：主要用于接收任务，准备执行，运行在...

2019-01-03 12:41:08 512

原创 Hue的安装

Hue的安装Hue的安装支持多种方式，包括rpm包的方式进行安装，tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等，我们这里使用tar.gz包的方式来安装。下载Hue的压缩包并上传linux解压Hue的压缩包的下载地址：http://archive.cloudera.com/cdh5/cdh/5/我们这里使用的是CDH5.14.0这个对应的版本，具体下...

2018-12-22 21:29:16 297

通过本地yum源安装impalaimpala的环境准备需要提前安装好Hadoop和hive这两个框架(可在我的博客中找到CDH版本的hive和hadoop的安装详解)并且hive需要在所有的impala安装的节点上面都要有，因为impala需要引用hive的依赖包，hadoop的框架需要支持C程序访问接口，只要在hadoop的安装目录下的lib目录有libhadoop.so.1.0.0这类文件...

2018-12-22 20:50:11 1621 2

原创 java执行shell命令

java执行shell命令需求描述：在实际工作中，总会有些时候需要我们通过java代码通过远程连接去linux服务器上面执行一些shell命令，包括一些集群的状态管理，执行任务，集群的可视化界面操作等等，所以我们可以通过java代码来执行linux服务器的shell命令为了解决上述问题，google公司给提出了对应的解决方案，开源出来了一个jar包叫做sshxcute，通过这个jar包我们可以...

2018-12-19 11:37:43 2100

原创 sqoop数据迁移

sqoop数据迁移概述：sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等工作机制：是将导入和导出的命令翻译成mapreduce程序来实现，在翻译出的mapreduce中主要对inp...

2018-12-19 10:45:49 656

原创工作流调度器azkaban

工作流调度器azkaban官网：https://azkaban.github.io/一个完整的数据分析系统，通常都是由大量的任务单元来组成的，各个单元之间存在时间先后顺序以及前后依赖的关系，为了更好的组织这样的计划，需要一个工作流调度系统来调度。工作流调度的实现方式：简单的任务调度：直接使用linux的crontab来定义复杂的任务调度：开发调度平台或使用现成的开源调度系统比如ooize...

2018-12-18 20:53:23 397

原创 Hive调优

Hive调优1、Fetch抓取（Hive可以避免进行mapreduce）在hive中对于某些查询，并不需要使用mareduce计算，例如我们在select * from employee，在这种情况下，可以直接去employee的存储目录，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老...

2018-12-17 19:33:53 251

原创 Hive的介绍与使用

Hive介绍与使用数据仓库的基本介绍数据仓库的基本概念：英文是datawarehourse数据仓库，主要用于存储数据和分析性报告以及决策支持，不会产生数据，也不会消费数据数据仓库的主要特征：面向主题：有确切的分析目标集成性：相关的数据都会被放入数据仓库，便于下一步的分析非易失性：数据一旦进入数据仓库不会轻易的改变时变性：根据不同的需求，会产生一些不同的分析维度数据库与数据仓库的区...

2018-12-15 15:16:46 384

原创 mapreduce的join算法编程案例

mapreduce编程案例map端的join算法1、原理阐述适用于关联表中有小表的情形，可以将小表发送到所有的map节点，这样map节点就可以在本地对自己读到的大表数据进行join并输出最终结果，可以大大提高join操作的并发度，加快处理速度2、实例：两表数据：商品表数据p0001,小米5,1000,2000p0002,锤子T1,1000,3000订单表数据1001,20150...

2018-12-13 17:15:40 316

原创 MapReduce增强

MapReduce增强1、分区在mapreduce中，通过指定分区将一个区的数据发送到同一个reduce中处理，分区数不能大于reduceTask的数量注意：在进行分区时，只能打成jar包发布到集群上去运行，不能在本地运行在需要分区时，需要编写一个自定义的partitioner类并且继承Partitioner这个类，传入map阶段的输出结果，重写其中的getPartition方法，通过返回...

2018-12-12 16:41:19 185

原创分布式计算框架MapReduce入门

分布式计算框架MapReduce入门mapreduce的核心思想是：分而治之map：把复杂的任务分解成若干的简单任务来并行执行，前提是这些小任务可以并行计算，彼此之间没有依赖reduce：对map阶段的结果进行汇总MapReduce编程规范和示例编写mapreduce的编程模型mapreduce的开发一共有八个步骤：其中map阶段分为2个步骤，shuffle阶段四个步骤，reduce阶...

2018-12-12 09:29:21 257

原创分布式文件系统HDFS

分布式文件系统HDFSHDFS的基础架构1、NameNode是一个中心服务器，负责管理文件系统的名字空间以及客户端对文件的访问2、文件操作，namenode是负责文件元数据的数据，datanode负责处理文件的读写请求，跟文件相关的数据流不经过namenode，值询问数据和哪个datanode有联系3、副本的存放位置由namenode来控制，根据全局情况来决定，读取文件时namenode尽...

2018-12-10 20:20:21 224

原创 centos6.9下安装zookeeper及shell操作

zookeeper介绍及集群环境搭建zookeeper概述zookeeper是一个分布式协调服务的开源框架。主要用来解决分布式集群中的应用系统的一致性问题，例如在避免在同时处理同一数据时出现脏读。zookeeper本质是一个分布式的小文件存储系统，提供类似于文件系统的目录树方式的数据存储，并且对树中的节点进行有效的管理。zookeeper的架构zookeeper集群中有：leader，f...

2018-12-08 14:04:15 231

原创 centos6.9下编译CDH版的Hadoop

centos6.9下CDH版本的Hadoop重新编译由于CDH提供的Hadoop安装包没有提供带C程序访问的接口，所以我们在使用本地库（进行压缩和支持c程序）时会出现问题。编译环境的准备编译需要的安装包：链接：https://pan.baidu.com/s/1htfW8hU5Bj6rxPN7Eap6Kw提取码：2ac0准备linux环境准备一台虚拟机，内存4G或以上，硬盘40G或以上...

2018-12-07 22:50:36 194

原创 Scala编程（三）高级特性

Scala编程（三）高级特性模式匹配Scala有一个十分强大功能：模式匹配。类似于java中的switch case 语法，即对一个值进行条件判断，然后针对不同的条件，进行不同的处理。另外Scala还提供了样例类，对模式匹配进行了优化，可以快速进行匹配。1.匹配字符串object matchDemo1 extends App { //定义一个字符串数组 val course = ...

2018-12-03 20:41:45 417

原创 Scala编程（二）面向对象编程

Scala编程（二）面向对象编程类1.类的定义//scala类class Person { //用val定义的成员变量，只提供了getter方法 val id = "1234" //用var定义的成员变量，提供了setter和getter方法 var name = "jack" var age = 20 //方法 def sleep()={ printl...

2018-12-01 21:22:05 412

原创 Scala编程（一）

Scala编程（一）Scala的特点Scala是一种多范式的编程语言，其设计的初衷是为了集成面向对象和函数是编程的各种特性，Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序（Scala源代码会被编译成Java字节码，它可以运行于JVM之上，并可以调用现有的Java类库）。开发环境搭建1.安装JDKScala源代码会被编译成Java字节码，它可以运行于JVM之上，并...

2018-11-30 20:41:30 637 1

原创 Flume 的基本使用

Flume 的基本使用Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG（originalgeneration），Flume1.X 版本的统称 Flume NG（next generation）。由于 FlumeNG 经过核心组件、核心配置以及代码架构重构，与 ...

2018-11-26 19:06:23 304

原创深入MapReduce

深入MapReducemapreduce的输入和输出mapreduce运行在<K,V>键值对上，在mapreduce流程中，会有三组键值对map的运行流程第一阶段：根据输入目录中的文件的大小，进行逻辑分片（默认情况下，Split size = Block size = 128MHadoop2.X后的块大小）每个切片由一个maptask处理。第二阶段：把切片中的每行内容处理...

2018-11-25 23:00:25 250

原创 centos6.5搭建Hadoop集群

centos6.5搭建Hadoop集群准备工作CentOS-6.5-x86_64-bin-DVD1.isolinux编译后的Hadoop安装包: hadoop-2.7.4.tar.gzjdk: jdk-8u65-linux-x64.tar.gz创建三个虚拟机通过ifconfig | more 命令查看各个虚拟机的ip地址ifconfig | more修改主机名和IP的映射...

2018-11-21 15:34:28 420

lsy107816的博客