Spark Streaming:基础

SparkStreaming作为Spark核心API的扩展,提供可扩展、高吞吐量的实时数据流处理能力。支持从Kafka、Flume等多种数据源获取数据,利用map、reduce等功能处理流数据,最终结果可应用于文件系统、数据库及实时仪表板。其内部结构基于DStream,由一系列RDD组成,具备容错性和多语言支持。

目录
    1.Spark Streaming简介
    2.Spark Streaming的特点
    3.Spark Streaming的内部结构

1.Spark Streaming简介

    Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还可以在数据流上应用Spark提供的机器学习和图处理算法。

2.Spark Streaming的特点

(1)易用:集成在Spark中
(2)容错性:底层RDD,RDD本身就具备容错机制。
(3)支持多种编程语言:Java Scala Python
3.Spark Streaming的内部结构

    在内部,它的工作原理如下。Spark Streaming接收实时输入数据流,并将数据切分成批,然后由Spark引擎对其进行处理,最后生成“批”形式的结果流。

    Spark Streaming将连续的数据流抽象为discretizedstream或DStream。在内部,DStream 由一个RDD序列表示。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值