二十Spark1和Spark2的区别

最新推荐文章于 2025-07-11 09:16:49 发布

原创最新推荐文章于 2025-07-11 09:16:49 发布 · 8k 阅读

4 ·

CC 4.0 BY-SA版权

spark_kafka 专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍了从Spark1升级到Spark2的重要变化，包括Tungsten执行引擎带来的性能提升，ml库的增强，尤其是对协同过滤的支持，以及SparkSession的引入，统一了SQLContext与HiveContext，简化了DataFrame和Dataset的使用。此外，还概述了Structured Streaming的高级API，以及Spark2.x在内存和CPU使用方面的优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习Spark的方法
dblab.xmu.edu.cn/blog/spark-quick-start-guide/
spark.apache.org/docs/1.6.2/mllib-collaborative-filtering.html
1 开始去spark官网下载源码
2 安装步骤
3 运行Spark自带的例子
4 根据业务来
5 了解RDD原理 MASTER，WORKER
6 了解Spark的各个组件，sparksql,ml ,mllib,sparkStreaming,hive,


Spark1和Spark2区别
1 Spark2 Apache Spark作为编译器:增加新的引擎Tungsten执行引擎，比Spark1快10倍
2 ml做了很大的改进，支持协同过滤
http://spark.apache.org/docs/latest/ml-collaborative-filtering.html
3 spark2 org.apache.spark.sql加了SparkSession把Spark的SQLcontext和hiveContext整合
  dataFrame去掉了，统一采用dataset
4 做流的方式，例如设置10秒钟一批，5秒钟处理
5 R语言API加入了很多机器学习的算法

Spark2.x引入了很多优秀特性，性能上有很大提升，API更易用。实现了离线计算和流计算的统一，实现了Spark sql和Hive Sql操作API的统一。
Spark 2.x基本上是基于Spark 1.x进行了更多的功能和模块的扩展，及性能的提升
Spark 2.x新特性
1）Spark Core/SQL
  在内存和CPU使用方面进一步优化Spark引擎性能，支持SQL 2003标准，支持子查询，对常用的SQL操作和DataFrame,性能有2-10倍的提升
2）sparksession
  Spark2.0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API，学习 Spark2 的难度也会大大降低。
3)统一 DataFrames 和 Datasets 的 API
它们都是提供给用户使用，包括各类操作接口的 API，1.3 版本引入 DataFrame，1.6版本引入Dataset，在 spark 2.0 中，把 dataframes 当作是一种特殊的 datasets，dataframes = datasets[row]，把两者统一为datasets。
4) strutured Streaming
Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API，使得Spark Streaming充分受益Spark SQL的易用性和性能提升。
5) 其它特性
  mllib里的计算用 DataFrame-based aPI替代以前的RD计算裸机，提供更多的R语言算法，默认使用Scala 2.11编译与运行