
etl
文章平均质量分 87
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
赵广陆
优快云认证博客专家、优快云的Java领域优质创作者、全网30w+粉丝、超300w访问量、专注于大学生项目实战开发、讲解和答疑辅导、以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理,对于专业性数据证明一切!
展开
-
大数据Sqoop将mysql直接抽取至Hbase
目录1 HBase 表设计2 Sqoop直接导入3 另一种常用思路批量导入1 HBase 表设计用户基本信息: tbl_users-- 1、如果用户表存在先删除hbase(main):013:0> disable 'tbl_users'hbase(main):014:0> drop 'tbl_users'-- 或者清空表hbase(main):015:0> truncate 'tbl_users'-- 2、创建用户表hbase(main):016:0> creat原创 2021-12-15 20:30:00 · 3496 阅读 · 0 评论 -
大数据Sqoop借助Hive将Mysql数据导入至Hbase
目录1. BulkLoad 介绍1.1. 为什么要抽取1.2. 为什么使用 BulkLoad1.3 hive导入Hbase1.3.1 创建表1.3.2 导入数据至Hive表2. 从 Hive 中抽取数据到 HBase2.1. 准备数据2.1.1. 将数据导入到 MySQL2.1.2. 将数据导入到 Hive2.2. 工程配置2.3. Spark 任务2.4. 运行任务1. BulkLoad 介绍目标理解 BulkLoad 的大致原理步骤为什么要抽取为什么使用 BulkLoad原创 2021-07-20 21:19:04 · 1570 阅读 · 2 评论 -
大数据同步工具Canal
目录1 什么是canal2 canal能做什么3 如何搭建canal3.1 首先有一个MySQL服务器3.2 安装canal1 什么是canal我们先看官网的介绍canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。这句介绍有几个关键字:增量日志,增量数据订阅和消费。这里我们可以简单地把canal理解为一个用来同步增量数据的一个工具。接下来我们看一张官网提供的示意图:canal的工作原理就是把自己伪装成MySQL slave,模拟MySQL原创 2021-03-14 19:23:32 · 6789 阅读 · 1 评论 -
Kettle可视化ETL工具快速入门
目录1 概述1.1 什么是 Azkaban1.2 为什么需要工作流调度系统1.3 Azkaban 特点1.4 常见工作流调度系统1.5 Azkaban 的架构1 概述1.1 什么是 AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,原创 2021-03-14 22:52:47 · 1872 阅读 · 0 评论 -
大数据Flume数据流监控
目录1 Ganglia 的安装与部署1.1 安装 ganglia2 操作 Flume 测试监控2.1 启动 Flume 任务2.2 发送数据观察 a ganglia 监测图1 Ganglia 的安装与部署Ganglia 由 gmond、gmetad 和 gweb 三部分组成。gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。gmet原创 2021-11-26 20:30:00 · 1011 阅读 · 0 评论 -
大数据Flume自定义类型
目录1 自定义 Interceptor2 自定义 Source3 自定义 Sink1 自定义 Interceptor1 ) 案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2 ) 需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event 中 Header 的某个 k原创 2021-11-26 20:30:00 · 1165 阅读 · 0 评论 -
大数据Flume企业开发实战
目录1 复制和多路复用1.1 案例需求1.2 需求分析:单数据源多出口案例(选择器)1.3 实现步骤2 负载均衡和故障转移2.1 案例需求2.2 需求分析:故障转移案例2.3 实现步骤3 聚合3.1 案例需求3.2 需求分析:多数据源汇总案例3.3 实现步骤1 复制和多路复用1.1 案例需求使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到原创 2021-11-26 20:15:00 · 1009 阅读 · 0 评论 -
大数据Flume特性
目录1 Flume 事务2 Flume Agent 内部原理3 Flume 拓扑结构3.2 复制和多路复用3.3 负载均衡和故障转移3.4 聚合1 Flume 事务2 Flume Agent 内部原理重要组件:1 1 ) ChannelSelectorChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)。ReplicatingSelector 会将同一个 Ev原创 2021-11-25 16:31:25 · 581 阅读 · 1 评论 -
大数据Nifi处理器
目录1 处理器介绍1.1 查看处理器1.2 常用处理器 - 整理2 配置处理器2.1 添加一个处理器2.2 配置处理器配置项说明2.3 配置处理器2.3.1 SETTING ( 设置 )2.3.2 SCHEDULING ( 任务调度 )2.3.3 PROPERTIES ( 属性 )2.3.4 COMMENTS ( 注释 )1 处理器介绍1.1 查看处理器1 选择处理器组件2 弹出窗口显示的就是所有处理器1.2 常用处理器 - 整理ExecuteScript : 执行脚本处理器 支持: c原创 2021-10-07 13:05:49 · 424 阅读 · 0 评论 -
大数据Nifi环境搭建
目录1 单机运行环境准备。2 下载3 修改默认端口4 启动1 单机运行环境准备。Apache nifi即可运行在Windows平台,也可运行在Linux平台,需要安装jdk(nifi 1.x以上需要jdk8以上,0.x需jdk7以上)和maven(至少3.1.0以上版本)。2 下载NIFI下载地址:http://nifi.apache.org/download.html下载当前版本的NiFi二进制工程,目前最新的版本为1.9.2。按需下载!3 修改默认端口同一系统启动多个服务时, 避免端原创 2021-10-07 12:20:33 · 511 阅读 · 2 评论 -
大数据Nifi常用组件
目录1 常用组件1.1 处理器( processor )1.2 数据流传入点(input-port)1.3 数据流输出点(output-port)1.4 组(process-group)1.5 远程组(remote process-group)1.6 聚合(funnel)1.7 模版(template)1.8 便签(label)2 导航(Navigate)3 操作区(Operate)3.1 配置(Configuration)3.2 启用(enable)3.3 禁用(disable)3.4 开始(start原创 2021-10-07 12:39:46 · 1095 阅读 · 0 评论 -
大数据Nifi简介
目录1 NIFI简介2 NIFI核心概念3 NIFI构架3.1 网络服务器3.2 流控制器3.3 扩展3.4 FlowFile存储库3.5 内容存储库3.6 源头存储库1 NIFI简介Apache NiFi 是一个易于使用,功能强大且可靠的系统,用于处理和分发数据。可以自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一。NiFi是基于Java的,使用Mav原创 2021-10-07 12:00:50 · 1764 阅读 · 0 评论 -
大数据Sqoop搭建
目录1 启动条件2 下载或复制Sqoop安装包3 解压并安装Sqoop4 配置Sqoop4.1 配置MySQL连接器4.2 配置Sqoop环境变量4.3 配置Linux环境变量5 启动并验证Sqoop6 测试Sqoop与MySQL的连接1 启动条件Sqoop需要安装在成功部署,Hadoop的平台上,并且要求Hadoop已经正常启动。读者可以参见第6章中有关验证Hadoop是否处于正常运行状态的方法。准备就绪后,就可以开始安装Sqoop了。我们打算将Sqoop安装在Master上,因此以下的操作均是在原创 2021-11-04 20:45:00 · 601 阅读 · 0 评论 -
大数据Sqoop快速入门
目录1 Apache Sqoop1.1 sqoop 介绍2 Sqoop 导入2.1 全量导入 mysql 表数据到 HDFS2.2 全量导入 mysql 表数据到 HIVE2.2.1 方式一:先复制表结构到 hive 中再导入数据2.2.2 方式二:直接复制表结构数据到 hive 中2.3 导入表数据子集(where 过滤)2.4 导入表数据子集(query 查询)2.5 增量导入2.5.1 Append 模式增量导入2.5.2 Lastmodified 模式增量导入2.5.3 Lastmodified 模原创 2021-04-11 19:15:56 · 410 阅读 · 0 评论 -
大数据Flume快速入门
目录1 Apache Flume概述2 Apache Flume使用3 Flume 安装部署4 Flume 简单案例5 Flume 的 load-balance、failover6 Flume 拦截器实战案例7 Flume 高阶自定义组件1 Apache Flume概述flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件source :用于对接各个不同的数据源sink:用于对原创 2021-04-11 19:34:12 · 258 阅读 · 0 评论 -
大数据技Flume快速入门
目录1 Flume 定义2 Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event1 Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。2 Flume 基础架构Flume 组成架构如图 1-1 所示:图 1-1 Flume 组成架构下面我们来详细介绍一下 Flume 架构中的组件:2.1 AgentAgent 是一个 JV原创 2021-03-14 22:49:41 · 331 阅读 · 0 评论