Spark 系列（九）—— Spark SQL 之 Structured API

最新推荐文章于 2024-07-21 07:15:00 发布

原创

最新推荐文章于 2024-07-21 07:15:00 发布 · 516 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

一、创建DataFrame和Dataset

1.1 创建DataFrame

Spark 中所有功能的入口点是 SparkSession，可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD，Hive 表或 Spark 数据源创建 DataFrame。示例如下：

val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()

// 建议在进行 spark SQL 编程前导入下面的隐式转换，因为 DataFrames 和 dataSets 中很多操作都依赖了隐式转换
import spark.implicits._

可以使用 spark-shell 进行测试，需要注意的是 spark-shell 启动后会自动创建一个名为 spark 的 SparkSession，在命令行中可以直接引用即可：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kvYIJ5P5-1592904311850)(https://gitee.com/heibaiying/BigData-Notes/raw/master/pictures/spark-sql-shell.png#pic_center)]

1.2 创建Dataset

Spark 支持由内部数据集和外部数据集来创建 DataSet，其创建方式分别如下：

1. 由外部数据集创建

// 1.需要导入隐式转换
import spark.implicits._

// 2.创建 case class,等价于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由外部数据集创建 Datasets
val ds = spark.read.json("/usr/file/emp.json").as[Emp]
ds.show()

2. 由内部数据集创建

// 1.需要导入隐式转换
import spark.implicits._

// 2.创建 case class,等价于 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由内部数据集创建 Datasets
val caseClassDS = Seq(Emp(

最低0.47元/天解锁文章

新学期VIP享超值加赠