1.什么是Scala语言
1.1 Scala语言是一种多范式的编程语言,设计初衷是结合面向对象编程和函数式编程的特性。
Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala的源代码(.scala)会被编译成Java字节码(.class),然后运行于JVM之上,并可以调用现有的Java类库,实现两种语言的无缝对接。Scala是一种形式纯净的面向对象语言,所有的数值都是对象,所有的运算都是方法调用。同时,Scala也是一门充分发展的函数式语言。
1.2
2.什么是Spark
2.1Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
spark特点:快速 易用 通用 随处运行 代码简洁
2.2认识Spark生态圈
Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源,利用Standalone、YARN 和Mesos 等资源调度管理,完成应用程序分析与处理。这些应用程序来自Spark 的不同组件,如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等,如下图所示,正是这个生态系统实现了“One Stack to Rule Them All”目标。 (在这里只介绍Spark Core、Spark SQL以及Spark Streaming)
1、Spark Core
Spark Core 是整个Spark生态系统的核心组件,是一个分布式大数据处理框架。Spa