spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别

本文总结了Spark 1.5/1.6与2.x版本之间的API差异,包括Spark版本、Scala版本、Hadoop版本和Hbase版本的对应关系。在API使用中,不同版本存在不兼容问题,如初始化方式变化、新增配置和优化的内存管理。例如,Spark 2.x引入了SparkSession,它继承自SparkContext,但两者不能同时使用。此外,还提到了配置文件的变化和新版本中更强大的累加器。建议使用Spark 2.x,并指出在读写Hadoop和Hbase时API也有所调整。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark常见操作系列

做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:

1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别
2. spark读写hadoop
3. spark读写hbase
4. spark广播变量的应用
5. spark,scala程序的调优几种思路

本人之前用spark1.5 和spark2.1 做开发,的时候,两个版本的切换, 所使用的spark api不一样,带来了一些麻烦.现把发现的spark 不同版本区别记录一下, 供大家做个参考.

Jdk版本 Spark版本 Scala版本 Hadoop版本 Hbase版本
1.7以上 Spark1.5/1.6 Scala2.10 Hadoop2.5/2.6 Hbase0.98及以上
1.7以上 Spark2.x Scala2.11 Hadoop2.7 Hbase0.98及以上

当然,hbase 连接会依赖zookeeper,在使用hadoop文件读写的时候,在消息流的处理上,我们使用的kafka的版本都要保持一致.
之前听同事说过,kafka对spark1.5 支持不是太好.

版本一致,在应用具体api的时候,
(1)遇到的不明报错会少很多;
(2)程序运行比较稳定

一般在maven里面管理依赖包的版本.实际上,具体加载依赖也要仔细,比如,hadoop使用client jar包;而hbase 在使用较新版本的api,比如rdd.saveAsNewAPIHadoopDataset() ,反而需要使用hbase server jar包.

spa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值