13、大数据处理利器:Samza与Spark的深度解析

大数据处理利器:Samza与Spark的深度解析

1. Samza简介

Samza是一个纯流处理系统,它为存储和执行层提供了可插拔的实现。常用的插件有YARN和Kafka,这展示了Samza能与Hadoop YARN紧密集成,同时使用完全不同的存储层。通过以下命令可以启动四个作业:JSON解析器、文本清理、统计作业和有状态情感作业。

$ ./gradlew runTasks

Samza目前仍是一个相对较新的项目,当前的功能只是设想中的一部分,建议查看其网页以获取最新状态信息。

2. Hadoop 2与YARN

Hadoop 2尤其是YARN,使Hadoop朝着更灵活、通用的数据处理平台迈进,不再局限于批处理。Samza就是一个很好的例子,它与批处理处于延迟频谱的两端,能够对单个消息进行逐消息处理。此外,Samza还提供了MapReduce开发者熟悉的回调机制,但用于不同的处理模型,并且利用YARN作为主要执行框架。

3. Apache Spark概述

Apache Spark是基于MapReduce泛化的一个数据处理框架,最初由加州大学伯克利分校的AMPLab开发。它像Tez一样,将数据转换建模为有向无环图(DAG),旨在消除MapReduce的I/O开销,以实现大规模的迭代计算。与Tez不同的是,Spark不仅被设计为独立的框架,还提供了用于应用程序开发的API,可进行通用的内存数据处理、流工作流以及交互式和迭代计算。
- 编程语言实现 :Spark用Scala实现,S

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值