Spark介绍

最新推荐文章于 2022-05-01 08:40:00 发布

水墨之白

最新推荐文章于 2022-05-01 08:40:00 发布

阅读量394

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： Spark 简介

本文链接：https://blog.youkuaiyun.com/LJJZJ/article/details/103211638

Spark 专栏收录该内容

3 篇文章

订阅专栏

Apache Spark是一款快速通用的大数据处理引擎，支持Java、Python和Scala等API，提供超过80种高级算法，适用于批处理、实时流处理、机器学习等多种场景。Spark可以无缝结合SQL、流式数据处理和复杂分析，实现数据的高效处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Spark简介

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP Lab（加州大学伯克利分校的AMP实验室）所开源的类Hadoop MapReduce的通用并行框架

二、Spark特性

分布式基于内存的迭代式计算

高效性

Speed
Run workloads 100x faster.
Apache Spark achieves high performance for both batch and streaming data, using a state-of-the-art DAG scheduler, a query optimizer, and a physical execution engine.

运行速度提升100倍
Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能

易用性

Ease of Use
Write applications quickly in Java, Scala, Python, R, and SQL.
Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法

通用性

Generality
Combine SQL, streaming, and complex analytics.
Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本

兼容性

Runs Everywhere
Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.
You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.

Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等