spark

本文介绍了伯克利数据分析栈(BDAS)的核心组件Spark及其生态系统,包括SparkSQL、SparkStreaming、GraphX等工具,涵盖了从数据处理到机器学习等多个方面。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark生态系统BDAS(伯克利数据分析栈)
其核心框架是 Spark,同时 BDAS 涵盖支持结构化数据 SQL 查询与分析的查询引擎 Spark SQL 和 Shark,提供机器学习功能的系统MLbase 及底层的分布式机器学习库 MLlib、并行图计算框架 GraphX、流计算框架 SparkStreaming、采样近似计算查询引擎 BlinkDB、内存分布式文件系统 Tachyon、资源管理框架 Mesos 等子项目。
1、Spark
Spark 是整个 BDAS 的核心组件,是一个大数据分布式编程框架,Spark 将分 布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩。
2、Shark
Shark 是构建在 Spark 和 Hive 基础之上的数据仓库。Shark 会将 Hive QL 编译转化为一组 Spark 任务,进行分布式运算。
3、Spark SQL
Spark SQL 提供在大数据上的 SQL 查询功能,类似于 Shark 在整个生态系统的角色,它们可以统称为 SQL on Spark。
4、Spark Streaming
Spark Streaming 通过将流数据按指定时间片累积为 RDD,然后将每个 RDD 进行批处理,进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架 Storm,并提供丰富的 API 用于流数据计算。
5、GraphX
GraphX 基于 BSP 模型,在 Spark 之上封装类似 Pregel 的接口,进行大规模同步全局的图计算,尤其是当用户进行多轮迭代时,基于 Spark 内存计算的优势尤为明显。
6、Tachyon
Tachyon 是一个分布式内存文件系统,可以理解为内存中的 HDFS。为了提供更高的性能,将数据存储剥离 Java Heap。用户可以基于 Tachyon 实现 RDD 或者文件的跨应用共享,并提供高容错机制,保证数据的可靠性。
7、Mesos
Mesos 是一个资源管理框架 ,提供类似于 YARN 的功能。用户可以在其中插件式地行 Spark、MapReduce、Tez 等计算框架的任务。Mesos 会对资源和任务进行隔离,并实现高效的资源任务调度。
8、BlinkDB
BlinkDB 是一个用于在海量数据上进行交互式 SQL 的近似查询引擎。它允许用户通过在查询准确性和查询响应时间之间做出权衡,完成近似查询。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值