
大数据工具
Imflash
分享知识,分享快乐
展开
-
Flume概述及搭建、负责均衡
Apache Flume二、 Apache Flume1. 概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sin...原创 2019-08-29 17:37:08 · 297 阅读 · 0 评论 -
Flume自定义组件
文章目录七、 Flume高阶自定义组件1. Flume自定义Source (扩展)1.1. 自定义Source说明1.2. 自定义Source原理1.3. 自定义Source具体实现2. Flume自定义Sink(扩展)2.1. 自定义Sink说明2.2. 自定义Sink原理实现七、 Flume高阶自定义组件1. Flume自定义Source (扩展)1.1. 自定义Source说明Sou...原创 2019-09-22 10:20:36 · 453 阅读 · 0 评论 -
Kafka操作及原理
文章目录**9、Kafka集群操作****9.1、kafka集群操作-控制台操作****9.1.1、创建一个Topic****9.1.2、查看主题命令****9.1.3、生产者生产数据****9.1.4、消费者消费数据****9.1.5、运行describe topics命令****9.1.6、修改topic属性****9.1.6.1、增加topic分区数****9.1.6.2、增加配置****...原创 2019-09-22 09:52:01 · 293 阅读 · 0 评论 -
kafka集群安装及插件
Kafka消息队列1、kafka企业级消息系统1、了解为什么要使用消息系统在没有使用消息系统以前,我们对于传统许多业务,以及跨服务器传递消息的时候,会采用串行方式或者并行方法;串行方式:用户注册实例:将注册信息写入数据库成功后,发送注册邮件,在发送注册短信。并行方式:将注册信息写入数据库成功后,发送注册邮件的同时,发送注册短信。以上三个任务完成之后,响应给客户端,与串行的差别是并行...原创 2019-09-06 22:37:54 · 1222 阅读 · 0 评论 -
Oozie
一、 Apache Oozie1. Oozie概述Oozie 是一个用来管理 Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL(Hadoop Process De...原创 2019-09-06 22:15:06 · 869 阅读 · 0 评论 -
Hue安装及使用
Apache Hue一、 Apache Hue介绍1. Hue是什么#后台启动hue和关闭huenohup build/env/bin/supervisor &ps -ef | grep huekill -9 xxx(先杀死build/env/bin/supervisor的端口)kill -9 xxx(再杀死runcherrypyserver的端口)HUE=Hadoop...原创 2019-09-06 21:51:37 · 4577 阅读 · 0 评论 -
Impala
Apache Impala二、 Apache Impala1. Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、D...原创 2019-09-02 15:23:31 · 4914 阅读 · 0 评论 -
AzKaban
Azkaban工作流调度二、 工作流1. 工作流产生背景工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处...原创 2019-09-01 12:48:43 · 382 阅读 · 0 评论 -
Sqoop
Apache Sqoop二、 Apache Sqoop1. sqoop介绍Apache Sqoop是在Hadoop生态体系和 RDBMS 体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包...原创 2019-08-30 18:45:52 · 315 阅读 · 0 评论 -
Flume拦截器实战
文章目录六、 Flume拦截器实战案例1. 日志的采集和汇总1.1. 案例场景1.2. 场景分析1.3. 数据流程处理分析1.4. 功能实现2. Flume自定义拦截器2.1. 案例背景介绍2.2. 自定义拦截器2.3. 功能实现2.4. 项目实现截图六、 Flume拦截器实战案例1. 日志的采集和汇总1.1. 案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、ng...原创 2019-09-22 10:21:50 · 488 阅读 · 0 评论