1.首先了解一下saprk,其本质是一个计算引擎。
2.定义:大规模数据处理的计算引擎。
3.速度:相比于hadoop内置的计算引擎(可以理解为hadoop里面的mapreduce)
从官方文档可知:
4.可供交互的交互语言技术:
官网介绍如下:
根据spark源码可以得知:
根据源码可以得知源码是支持这些接口的,由此可以得知,是支持Scala,java,pytho,r语言,也支持sql进行数据库中间件的交互。
5.依赖环境其中spark本身是一个引擎,可以理解为一个计算机框架,因此需要一定的存储机构进行依托,官方文档介绍如下: