SparkSQL DSL 语法
DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL, 使用 DSL 语法风格不必去创建临时视图了
- 创建一个 DataFrame
scala> val df = spark.read.json("data/user.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
- 查看 DataFrame 的 Schema 信息
scala> df.printSchema
root
|-- age: Long (nullable = true)
|-- username: string (nullable = true)
- 只查看"username"列数据,
scala> df.select("username").show()
Spark SQL DSL 实战

本文介绍如何使用Spark SQL的DSL进行结构化数据管理,包括DataFrame的创建、查询、过滤及分组等操作。
最低0.47元/天 解锁文章
390

被折叠的 条评论
为什么被折叠?



