Spark(一)

Apache Spark:是用于大数据处理的集群计算框架。
Spark并没有以MapReduce作为执行引擎,而是使用了它自己的分布式运行环境在集群上执行工作。但是它与MapReduce在API和运行环境方面有许多相似之处。
Spark和Hadoop紧密集成,可以在YARN上运行,并支持Hadoop文件存储格式以及存储后端(HDFS)。

Spark最突出的表现在于它能够将作业与作业之间产生的大规模的工作数据集存储在内存中。在性能上超过了等效的MapReduce工作流,因为MapReduce数据集始终需要从磁盘上加载。
从Spark处理模型中获益最大的两种应用类型为迭代算法和交互式分析。
Spark还有出色的DAG引擎和用户体验。
DAG引擎:可以处理任意操作流水线,并为用户将其转换为单个作业。
用户体验:有丰富的API集,用于执行多种常见的数据处理任务。
Spark还是用于构建分析工具的出色平台,项目包括用于处理机器学习(MLlib)、图算法(GraphX)、流式计算(Spark Streaming)和Sql查询(Spark SQL)等模块。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值