Spark Streaming 05 Spark Streaming 入门

本文介绍了Spark Streaming作为核心Spark API的扩展,它能够实现大规模、高吞吐量且容错的实时数据流处理。其特点包括低延迟、高效错误恢复能力及能够支持数千个节点的扩展性。此外,它还支持与其他Spark组件如批处理、机器学习等集成使用。

1 介绍

Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams.

spark-streaming将来自不同的数据源的数据进行处理,之后将结果输出到外部文件系统。

2 特点

  • 低延时
  • 能从错误中高效的恢复
  • 能够运行在成千上百的节点
  • 能够将批处理、机器学习、图计算等自框架和spark-streaming综合起来使用

3 工作原理

1) 粗粒度

spark-streaming接收到实时数据流,把数据按照指定的时间段切成一片片小的数据块,然后把小的数据块传给spark-engine处理。

2)细粒度

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值