1.Starting Point: SparkSession
Spark中所有功能的入口点是SparkSession类。 要创建一个基本的SparkSession,只需使用 SparkSession.builder():
例子:
import org.apache.spark.sql.SparkSession
var spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()
2.Creating DataFrames
使用SparkSession,应用程序可以从现有RDD,Hive表或Spark数据源创建DataFrame。
val df = spark.read.json("example/src/main/resouces/people.json")
df.show()
3.Untyped Dataset Operations (aka DataFrame Operations)
DataFrames为Scala,Java,Python和R中的结构化数据操作提供特定于域的语言。
如上所述,在Spark 2.0中,DataFrames只是Scala和J