Apache Spark

Apache Spark是一个统一的大数据处理引擎,以其Resilient Distributed Datasets (RDDs)为核心,支持SQL查询、批处理、流处理、图计算和机器学习等多种任务。Spark采用延迟计算,通过分析数据流图生成高效执行计划,并通过RDD的持久化和血统机制实现容错。Spark SQL和DataFrames提供了高级数据抽象,Spark流处理支持实时计算,GraphX处理图形数据,MLlib提供机器学习功能。Spark的通用性使其广泛应用于批量处理、交互式查询、流处理和科学计算等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Apache Spark

Apache Spark现在已经成为一种统一化的大数据处理引擎,它通过数据共享抽象Resilient Distributed Datasets (RDDs),来支持各种各样的数据处理工作,像SQL查询,batch处理,streaming,machine learning以及graph处理。

Spark编程模型

RDD抽象

最关键的数据抽象是RDDs,它是一堆对象的集合,并被partition到cluster下的多个机器中,并保证数据不丢失。那么问题来了:

  1. 如何创建一个RDD

    spark提供了很多称之为transformations的函数,用来创建RDDs,例如map,filter,groupby等。

  2. 如何操纵RDD

    RDD对外暴露了各种函数式编程API,支持多种语言如Java,Python,R以及Scala。用户只需要向RDD传递一个local function,就可以操纵cluster中的RDDs。

举例如下:

lines = spark.textFile(“hdfs://...”)
errors = lines.filter(s => s.startsWith(“ERROR”))
println(“Totalerrors:“+errors.count())

上面首先通过HDFS的一个文件创建一个RDD,然后调用filter函数来过滤包含ERROR的行,并将行数打印输出。其中比较特别的地方是filter传入的参数,是一个closure(闭包)。在Spark编程中,用户可以向Spark传入各种lib function,user-define functions甚至于外部引用的变量,这些会将这些变量以read-only的方式copy到cluster中的worker节点上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值