什么是spark? 相关应用场景
特性
1.快速性
如果在内存中运行MapRaduce,要比Hadoop快100倍
如果在磁盘中运行,要比Hadoop快10倍
Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算
2.易用性
Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用
这些算子支持多种语言 按照切合度排序为 Scala, Python, R
3.通用性
Spark有一个强大的堆库,包括SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming
4.跨平台性
Spark可以运行在Hadoop, Mesos, standalone, or in the cloud
可以访问不同的数据源包括HDFS, Cassandra, HBase, and S3.
Spark核心RDD
最基础RDD 词频统计
a.txt
RDD创建方式
-
集合
-
文件
Spark支持的两种RDD操作
Action算子