
Hadoop辅助系统
Fenggms
好好学习,天天向上。
展开
-
Flume(01)——日志采集框架Flume概述
Flume1 概述Flume是什么?Flume的版本2 运行机制3 Flume采集系统结构图3.1 简单结构3.2 复杂架构1 概述Flume是什么?Flume是一个分布式、可靠、高可用的,海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka...原创 2018-10-01 21:52:33 · 443 阅读 · 0 评论 -
impala(02)——impala的安装
1、安装环境准备需要提前安装好hadoop,hive,hive需要在所有的impala安装的节点上面都要有,因为impala需要引用hive的依赖包,hadoop的框架需要支持C程序访问接口。2、下载impala的所有依赖包安装impala的时候,需要使用rpm包来进行安装,rpm包只有cloudera公司提供了,所以我们去cloudera公司网站进行下载rpm包即可。但是另外一个问题,i...原创 2018-10-04 23:25:30 · 1377 阅读 · 0 评论 -
impala(03)——impala的语法
impala-shell语法impala-shell的外部命令参数语法不需要进入到impala-shell交互命令行当中即可执行的命令参数impala-shell后面执行的时候可以带很多参数:-h 查看帮助文档impala-shell -h-r 刷新整个元数据,数据量大的时候,比较消耗服务器性能impala-shell -r-B 去格式化,查询大量数据可以提高性能–prin...原创 2018-10-05 18:05:43 · 608 阅读 · 0 评论 -
impala(04)——impala的使用
impala的使用,首先通过impala-shell进入到impala的交互窗口数据库操作查看所有数据库show databases;创建与删除数据库CREATE DATABASE IF NOT EXISTS mydb1;drop database if exists mydb;创建数据库表并指定数据库表数据存放hdfs的位置(与hive建表语法类似)hdfs dfs -m...原创 2018-10-05 18:32:17 · 1601 阅读 · 0 评论 -
impala(05)——impala的java开发
遵循java开发的一般套路,先导入jar包,来实现通过java代码来进行操作impala的查询。导入jar包 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.c...原创 2018-10-05 19:34:02 · 1554 阅读 · 1 评论 -
Hue(01)——Hue概述
HUE是什么?HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDF...原创 2018-10-05 20:34:24 · 845 阅读 · 0 评论 -
Hue(02)——Hue安装
Hue的安装支持多种方式,包括rpm包的方式进行安装,tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等,这里使用tar.gz包的方式来安装。下载Hue的压缩包并上传到linux解压Hue的压缩包的下载地址:http://archive.cloudera.com/cdh5/cdh/5/我们这里使用的是CDH5.14.0这个对应的版本,具体下载地址为htt...原创 2018-10-05 20:59:33 · 580 阅读 · 0 评论 -
Hue(03)——Hue其他框架的集成
hue与hadoop的HDFS以及yarn集成1 更改所有hadoop节点的core-site.xml配置<property><name>hadoop.proxyuser.root.hosts</name><value>*</value></property><property><nam原创 2018-10-05 21:10:08 · 496 阅读 · 0 评论 -
oozie的安装
Oozie的简介Oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务,如,MapReduce、Pig等。Oozie是根据有向无环图(DAGDirect Acyclic Graph)的模式对action的执行时间与执行顺序进行管理调度的。oozie的架构oozie的组件介绍workFlow:工作流,定义我们的工作流的任务的执行,主要由一个个的ac...原创 2018-10-05 21:55:54 · 373 阅读 · 0 评论 -
oozie——hue整合oozie
停止oozie与hue的进程通过命令停止oozie与hue的进程,准备修改oozie与hue的配置文件修改oozie的配置文件(老版本的bug,新版本已经不需要了)修改oozie的配置文件oozie-site.xml<property> <name>oozie.service.WorkflowAppService.system.libpath</na...原创 2018-10-05 22:04:55 · 3345 阅读 · 0 评论 -
sqoop从mysql导入数据到hive时tinyint(1)格式自动变成Boolean解决方案
首先,来一段官网原文:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TINYINT(1) columns as booleans, which is for example causing issues with HIVE import. This is be...原创 2018-11-26 10:42:29 · 2165 阅读 · 2 评论 -
impala(01)——impala的概述
impala的介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果。官方测试性能比hive快3到10倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。impala是参照谷歌的新三篇论文(Caffeine、Pregel、Dremel)当中的Dremel实现而来。impala是基于hive并使用内存进行计算,兼顾数据仓库...原创 2018-10-04 23:03:07 · 742 阅读 · 0 评论 -
sqoop数据迁移(04)——sqoop数据导出
sqoop的数据导出是指将数据从HDFS把文件导出到RDBMS数据库。导出前,目标表必须存在于目标数据库中。默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式下,是生成UPDATE语句更新表数据。hdfs导出到mysql数据是在HDFS当中的如下目录/sqoop/emp,数据内容如下:(拿人家的数据啦)1201,gopal,manager,50000,TP,2018-0...原创 2018-10-04 22:38:28 · 248 阅读 · 0 评论 -
sqoop数据迁移(03)——sqoop数据导入
导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据(或者Avro、sequence文件等二进制数据)列举出所有的数据库命令行查看帮助bin/sqoop list-databases --help列出本机(我这里直接安装在了node03,node03上有mysql数据库)主机所有的数据库bin/sqoop list-databases ...原创 2018-10-04 22:31:30 · 473 阅读 · 0 评论 -
Flume(02)——Flume安装部署
需求:使用网络telent命令向一台机器发送一些网络数据,然后通过flume采集网络端口数据。—— 说好的安装部署呢?怎么开头提一个大需求?什么东西?—— 别急,Flume的安装部署实在是太简单了。给我一个hadoop环境,去官网下载一个安装包,解压然后配一下flume-env.sh 就好啦。所以,所以…本章完?还是写一个实际的例子吧。反正也是别的教程的例子,学习学习。下载解压,配置flu...原创 2018-10-01 22:24:52 · 349 阅读 · 0 评论 -
Flume(03)——Flume采集案例
1 采集目录到HDFS需求分析采集需求:某服务器的某特定目录/export/servers/dirfile下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去。需求分析:通过flume采集数据,最重要的就是配置三大组件。这里可以通过source来监控文件目录。通过channel,来将source采集到的内容发送到sink通过sink,将文件上传到HDFS文件系统。...原创 2018-10-01 23:24:06 · 562 阅读 · 0 评论 -
Flume(04)——Flume agent级联
上张图先:我只想说,官网的图画的真好看。上需求:弄一个两个agent级联收集数据。需求分析按照之前说的,两个agent,第一个agent负责收集文件当中的数据,通过网络发送到第二个agent当中去,第二个agent负责接收第一个agent发送的数据,并将数据保存到hdfs上面去.1、node02安装flume既然要搞级联,那么就再多安装一台flume吧。将node03机器上面解...原创 2018-10-02 00:11:24 · 1383 阅读 · 0 评论 -
Flume(05)——高可用Flume-NG配置案例failover
架构图如下所示:Flume的存储可以支持多种.需求:在上面的架构图中,有3个产生日志服务器,要把所有的日志都收集到一个集群中存储。角色分配搭建高可用Flume-NG,在集群有三台设备的情况下,可以如下分配:名称HOST角色Agent1node01 WebServerCollector1node02AgentMstr1Collector2no...原创 2018-10-02 11:13:08 · 556 阅读 · 0 评论 -
Flume(06)——flume的负载均衡load balancer
负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能。如图:Agent1 是一个路由节点,负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上,而每个 Sink 组件分别连接到一个独立的 Agent 上,示例配置,如下所示:在此处我们同样还是通过三台...原创 2018-10-02 12:18:48 · 380 阅读 · 0 评论 -
工作流调度器azkaban(01)——azkaban概述
azkabanazkaban是什么?azkaban的特点为什么需要工作流调度系统?工作流调度实现方式常见工作流调度系统Azkaban与Oozie对比功能工作流定义工作流传参定时执行资源管理工作流执行工作流管理azkaban是什么?Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(prope...原创 2018-10-04 19:30:48 · 384 阅读 · 0 评论 -
工作流调度器azkaban(02)——azkaban安装部署
azkabanazkaban的编译下载完成后进行解压,并下载一下必要的插件。编译之后需要的安装文件列表如下azkaban单服务模式安装单服务模式安装单服务模式使用azkaban两个服务模式安装所需软件:数据库准备解压软件安装包安装SSL安全认证azkaban web server安装修改azkaban-web-server的配置文件添加log4j.properties的配置文件azkaban e...原创 2018-10-04 20:51:27 · 400 阅读 · 0 评论 -
工作流调度器azkaban(03)——azkaban实战
Command类型单一job示例创建job描述文件创建文本文件,更改名称为mycommand.job注意后缀.txt一定不要带上,保存为格式为UFT-8 without bom内容如下type=commandcommand=echo 'hello world'将job资源文件打包成zip文件创建project并上传压缩包通过azkaban的web管理平台创建project并上传...原创 2018-10-04 20:58:54 · 423 阅读 · 0 评论 -
sqoop数据迁移(01)——sqoop概述
概述sqoop是什么?sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等Sqoop 是连接传统关系型数据库和 Hadoop 的桥梁。它包括以下两个方面:1、 将关系型数据库的数据...原创 2018-10-04 21:26:30 · 365 阅读 · 0 评论 -
sqoop数据迁移(02)——sqoop安装
安装sqoop的前提是具备java和hadoop的环境。下载并解压下载地址http://archive.cloudera.com/cdh5/cdh/5/sqoop1版本详细下载地址http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.14.0.tar.gzsqoop2版本详细下载地址http://archive.clouder...原创 2018-10-04 21:41:45 · 181 阅读 · 0 评论 -
sqoop jdbc连接mysql时接多个参数报错 --username: 未找到命令解决
由于我需要设置tinyInt1isBit=false来解决tinyint(1)变成Boolean类型的问题,使用了如下代码:sqoop import-all-tables --connect jdbc:mysql://192.168.1.100:3306/behivour_log?tinyInt1isBit=false&characterEncoding=utf8 --username...原创 2018-11-26 11:06:29 · 2500 阅读 · 0 评论