
工具
文章平均质量分 78
cristim33
这个作者很懒,什么都没留下…
展开
-
oozie 4.0.1版本功能
oozie 1.x 运行mapreduce,pig任务的工作流job原创 2014-05-27 17:36:04 · 1224 阅读 · 0 评论 -
flume笔记(一)
从不同的源收集,聚合日志,传输到存储系统。 source用来读取数据,可以是各种客户端,或者来自另一个agent,存入channel,sink来消费,整个过程是异步的。 event只有在被成功存入下一个agent的channel里(多个agent)或最终目的地(单个agent)时才删除,确保可靠性。 Channel有文件和内存两种。 多个实例要指原创 2014-07-10 15:46:45 · 2155 阅读 · 0 评论 -
以tcl脚本语言+mysql DB 为例 介绍ETL调度系统搭建过程
前言市面上ETL调度工具很多,用起来比较方便,但每一种工具往往具有局限性,可能某些个别的功能不支持。其实我们只要明白了调度系统的思想,底层的实现,完全可以自己手动搭建一个,用开源的语言,数据库,再配合shell脚本。这样做的好处是便于我们对流程细节上的控制,有新需求也较容易扩展实现,只要我们编写的核心控制程序设计合理,层次分明,修改维护起来也较容易。目前有一款较火应用在hadoop分布原创 2012-03-02 11:03:24 · 2653 阅读 · 1 评论 -
kafka笔记(一)
每个分区是一段提交日志,有偏移量。队列里的topic可配置过期时间,consumer控制读取的位置offset,consumer之间互不影响。分区是分布式的,所有请求由leader处理,如果配置了副本数,则有对应的follwer。 consumer group:实现了消息队列和广播。topic会发到每个consumer group的其中一个consumer实例。相对于传统pub原创 2014-07-10 15:54:14 · 909 阅读 · 0 评论 -
sqoop使用心得~~~
sqoop是么哥?sqoop就是封装了RDB与hdfs之间互相cp数据的一个工具,没有它,我们当然也可以写一坨脚本,手动执行,但是用它会更方便,so。。。安装步骤:1、去 http://archive.cloudera.com/cdh/3/ 下载开发包,现在一般下cdh3u3。2、下载jdbc rdb 驱动jar包,我测试用的是mysql 驱动。3、解压完之后把my原创 2012-03-01 13:30:35 · 2798 阅读 · 0 评论 -
oozie 工作流调度引擎总结(一)
oozie是服务于hadoop生态系统的工作流调度工具,job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。首先是作为调度系统两大核心:依赖和触发。依赖可以是条件依赖,比如,资源依赖,依赖于某些数据文件的存在,也可以是任务依赖,比如依赖于另一个job的完成。在oozie里,每一个job对应一个action节点,这个节点可以是java,hadoop FS,m原创 2012-12-02 16:18:14 · 7180 阅读 · 1 评论 -
关于oozie文档中的错误
最近学习oozie,发现文档中有个极其2b的错误:Workflow Diagram: * you do1t have permission to upload pictures because you registered for less than a week。。。。hPDL Workflow Definition:原创 2012-02-27 23:58:27 · 771 阅读 · 0 评论