Zebra项目总结

Zebra项目是一个分布式项目,涉及四个工程,包括contract、engine1-01、engine1-02和Engine2,主要处理电信日志数据。与Hadoop相比,Zebra缺少对海量数据的存储管理、节点故障处理、多级处理和任务资源调度。Avro项目的业务处理方式未详细展开。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


四个工程的作用

Zebra项目是一个比较底层的分布式项目。在这个项目中让我们初步了解了分布式编程的一些特点。

 

Zebra项目中,任务是把一个电信日志文件中的数据提取出来,然后对里面的数据进行提取。

分为四个projects。分别为:contract   engine1-01  engine1-02  engine2  jobtracker

 

整个任务是用maven来管理,contract主要是被依赖的工程,rpc协议,通用类,jar包等都放在这个工程中。

Engine1-01engine1-02分别被当做两台计算机节点处理任务。通过zookeeper存储的信息(ip地址跟端口),来进行任务的分发。对数据进行一级处理。

Engine2主要是用于对数据的二级处理,一级处理的任务放入mapQueue中,Engine2mapQueue中取出数据,再对数据进行进一步处理,最后落入数据库。

 

整个Zebra项目跟hadoop分布式处理的差距

1.没有考虑到海量数据存储和管理的问题。

2.没有考虑到节点的故障问题,比如通过心跳来确定集群的高可用

3.只有一个二级节点,导致如果合并的工作量很大造成单点工作负荷

4.zebra项目中很多业务的处理可以提取出来,提炼出计算框架。比如:逻辑切块、位置追溯、key值得合并)。即没有计算框架的思想来处理业务,导致以后有新人物,还会做重复且繁琐的工作。

5.任务资源管理和调度。比如对每一个job任务进行cpu和内存的合理分配。比如yarnmesos

 

Avro项目中需要掌握的业务处理方式

未完待续

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值