
大数据-数据挖掘
文章平均质量分 79
jiangfeng999
程序员
展开
-
数据仓库流程控制组件
1. 流程控制组件流程控制(也称工作流、任务流)是 ETL 重要的组成部分,通常是以 DAG 的方式配置,每次调用都会沿着有向无环图从前往后依次执行直至最后一个任务完成。流程控制可以在 ETL 工具内配置,也可以在调度系统配置。传统 ETL 工具基本上都是单机版的,如果 ETL 的任务节点分布在多个服务器上,整体的流程依赖就会变的复杂起来(跨服务器的调度无法解决,就只剩下两种方法了:预估前置依赖完成时间、监控前置依赖运行状态比如将运行状态写入数据库等),这时候使用调度工具里的流程控制功能就是最优解。2原创 2022-01-14 20:24:26 · 1620 阅读 · 0 评论 -
使用sqoop从MySQL采集数据到HDFS
1. 使用sqoop从MySQL采集数据到HDFS1.1. sqoop 安装和配置1.1.1. 下载sqoopwget --no-check-certificate https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz解压缩到 /usr/local/sqoo...原创 2019-12-17 19:52:15 · 1111 阅读 · 0 评论 -
Storm源码结构 (来源Storm Github Wiki)
写在前面本文译自Storm Github Wiki: Structure of the codebase,有助于深入了解Storm的设计和源码学习。本人也是参照这个进行学习的,觉得在理解Storm设计的过程中起到了重要作用,所以也帖一份放在自己博客里。以下的模块分析里没有包括Storm 0.9.0增加的Netty模块,对应的代码包在Storm Github下的storm-netty文件夹内转载 2014-07-30 19:52:08 · 3251 阅读 · 0 评论