Spark的安装

解怡椿

已于 2024-11-09 16:20:11 修改

阅读量1.6k

点赞数 29

分类专栏： spark 文章标签： spark

于 2024-09-17 22:40:46 首次发布

本文链接：https://blog.youkuaiyun.com/xieyichun_/article/details/142318812

版权

一、Spark

1、概述

Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。

Hadoop 之父 Doug Cutting 指出：Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark (大数据项目的 MapReduce 引擎的使用将下降，由 Apache Spark 取代)。

2、spark的特点

速度快：Spark 通过内存中的数据处理，实现了比 MapReduce 快达 100 倍的性能提升，即使在基于磁盘的运算中也能快 10 倍。其高效的 DAG 执行引擎使得数据流处理更为迅速。
易用性强：Spark 支持 Java、Python、R 和 Scala 多种语言的 API，并提供了超过 80 种高级算法，简化了应用开发过程。此外，它支持交互式的 Python 和 Scala shell，便于用户快速验证解决方案。
功能全面：Spark 是一个统一的数据处理框架，支持批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（MLlib）和图计算（GraphX），能够在单一平台上无缝集成多种处理模式。
兼容性佳：Spark 能够与现有的 Hadoop 生态系统无缝融合，支持 Hadoop 的 YARN 和 Apache Mesos 作为资源调度器，并且可以直接处理 Hadoop 支持的各种数据存储，如 HDFS、HBase 和 Cassandra，使得已部署 Hadoop 的用户能够轻松利用 Spark 的强大功能而无需迁移数据。