1.spark框架是如何处理数据的
1.hadoop MapReduce 框架
并行计算的思想、分而治之的思想
2. scala集合高阶函数
处理数据的思想:
将要分析的数据放到集合中去,然后调用集合的高阶函数去处理数据
2.spark是什么
Apache Spark™ is a unified analytics engine for large-scale data processing.
统一分析引擎为海量数据处理
统一:什么样的数据都能处理分析,什么类型的数据都可以处理,实时,离线,流式都可以。
MapReduce
map,reduce函数
将分析的结果放在磁盘中,并且后续进行数据分析的时候,再从磁盘读取,以此往返。。。
Runs Everywhere
-
spark要处理的数据在哪里
hdfs/hive/HBASE/ORC/parquet/csv/tsv/jdbc/redis/mangdb/ES/。。
spark 能从哪里读数据,就能往哪里写数据 -
spark程序运行在哪里
本地模式
集群模式
yarn ,standlone, mesos cluster
3.spark分析数据的过程(3步骤)
第一步.数据的读取
将要处理的数据封装到一个RDD中(类别scala中list列表)
val inputRDD