目录
一、Spark
1、概述
Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。
Hadoop 之父 Doug Cutting 指出:Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降,由 Apache Spark 取代)。
2、spark的特点
速度快:Spark 通过内存中的数据处理,实现了比 MapReduce 快达 100 倍的性能提升,即使在基于磁盘的运算中也能快 10 倍。其高效的 DAG 执行引擎使得数据流处理更为迅速。
易用性强:Spark 支持 Java、Python、R 和 Scala 多种语言的 API,并提供了超过 80 种高级算法,简化了应用开发过程。此外,它支持交互式的 Python 和 Scala shell,便于用户快速验证解决方案。
功能全面:Spark 是一个统一的数据处理框架,支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(MLlib)和图计算(GraphX),能够在单一平台上无缝集成多种处理模式。
兼容性佳:Spark 能够与现有的 Hadoop 生态系统无缝融合,支持 Hadoop 的 YARN 和 Apache Mesos 作为资源调度器,并且可以直接处理 Hadoop 支持的各种数据存储,如 HDFS、HBase 和 Cassandra,使得已部署 Hadoop 的用户能够轻松利用 Spark 的强大功能而无需迁移数据。
二、安装spark
1、安装包
我这里使用的是spark3.1.2 安装包放到我的百度网盘上
链接:https://pan.baidu.com/s/1gUXQJN0-utqDBIhnOGb9jQ?pwd=1234
提取码:1234