spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别

公众号【禅与大数据】，欢迎订阅

于 2018-03-10 16:57:16 发布

阅读量2.1k

点赞数

分类专栏：大数据 spark scala hadoop hbase 文章标签： spark scala hadoop hbase

本文链接：https://blog.youkuaiyun.com/cafebar123/article/details/79440562

版权

本文总结了Spark 1.5/1.6与2.x版本之间的API差异，包括Spark版本、Scala版本、Hadoop版本和Hbase版本的对应关系。在API使用中，不同版本存在不兼容问题，如初始化方式变化、新增配置和优化的内存管理。例如，Spark 2.x引入了SparkSession，它继承自SparkContext，但两者不能同时使用。此外，还提到了配置文件的变化和新版本中更强大的累加器。建议使用Spark 2.x，并指出在读写Hadoop和Hbase时API也有所调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark常见操作系列

做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:

1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别
2. spark读写hadoop
3. spark读写hbase
4. spark广播变量的应用
5. spark,scala程序的调优几种思路

本人之前用spark1.5 和spark2.1 做开发,的时候,两个版本的切换, 所使用的spark api不一样,带来了一些麻烦.现把发现的spark 不同版本区别记录一下, 供大家做个参考.

Jdk版本 Spark版本 Scala版本 Hadoop版本 Hbase版本
1.7以上 Spark1.5/1.6 Scala2.10 Hadoop2.5/2.6 Hbase0.98及以上
1.7以上 Spark2.x Scala2.11 Hadoop2.7 Hbase0.98及以上

当然,hbase 连接会依赖zookeeper,在使用hadoop文件读写的时候,在消息流的处理上,我们使用的kafka的版本都要保持一致.
之前听同事说过,kafka对spark1.5 支持不是太好.

版本一致,在应用具体api的时候,
(1)遇到的不明报错会少很多;
(2)程序运行比较稳定

一般在maven里面管理依赖包的版本.实际上,具体加载依赖也要仔细,比如,hadoop使用client jar包;而hbase 在使用较新版本的api,比如rdd.saveAsNewAPIHadoopDataset() ,反而需要使用hbase server jar包.