spark2 对比spark1

本文介绍了Spark2相较于Spark1的主要改进之处,包括流处理、统一SQL API、内存及CPU优化等方面,同时涵盖了新版本中的一些不足,如稳定性及依赖问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 流处理的对比

spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。

2.切入点

spark2 引入sparkSession 统一了sqlcontext和hivecontext

3.spark2兼容spark1的所有算子,将DF整合到了dataset

4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升。

5.mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。

6.较spark1.6稳定性稍低,小版本差异带来的依赖问题偏多。

7.集群提交

spark2-submit --class com.........

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值