一、创建DataFrame和Dataset
1.1 创建DataFrame
Spark 中所有功能的入口点是 SparkSession
,可以使用 SparkSession.builder()
创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如下:
val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()
// 建议在进行 spark SQL 编程前导入下面的隐式转换,因为 DataFrames 和 dataSets 中很多操作都依赖了隐式转换
import spark.implicits._
可以使用 spark-shell
进行测试,需要注意的是 spark-shell
启动后会自动创建一个名为 spark
的 SparkSession
,在命令行中可以直接引用即可:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kvYIJ5P5-1592904311850)(https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-sql-shell.png#pic_center)]
1.2 创建Dataset
Spark 支持由内部数据集和外部数据集来创建 DataSet,其创建方式分别如下:
1. 由外部数据集创建
// 1.需要导入隐式转换
import spark.implicits._
// 2.创建 case class,等价于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long,
hiredate: String, job: String, mgr: Long, sal: Double)
// 3.由外部数据集创建 Datasets
val ds = spark.read.json("/usr/file/emp.json").as[Emp]
ds.show()
2. 由内部数据集创建
// 1.需要导入隐式转换
import spark.implicits._
// 2.创建 case class,等价于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long,
hiredate: String, job: String, mgr: Long, sal: Double)
// 3.由内部数据集创建 Datasets
val caseClassDS = Seq(Emp(