文章目录
零、本讲学习目标
- 了解Spark发展史
- 了解Spark的特点
- 了解Spark存储层次
- 了解Spark生态圈
- 了解Spark应用场景
一、大数据开发总体架构
二、Spark简介
- Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.
- Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在某些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX,以及用于实时流处理的Spark Streaming。
- Spark作为下一代大数据处理引擎,