Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。
组成Samza的三个部分
使用hadoop的人都应该很熟悉这个体系架构
最大的优点在于和Kafka以及YARN平台比较好的结合,yahoo的storm on yarn还不太成熟,至于Samza这个基于hadoop的流处理框架是否优于yahoo的以及storm,这个还不确定,需要实践去证明。
从官网介绍上看,Samza使用原生的YARN,而其他基于YARN的流处理框架基本都需要创建自己的资源管理框架或者在YARN的基础再运行一层。
官方文档 http://samza.incubator.apache.org/learn/documentation/0.7.0