SparkSQL的Json数据源

最新推荐文章于 2025-01-18 10:55:50 发布

原创最新推荐文章于 2025-01-18 10:55:50 发布 · 238 阅读

0 ·

CC 4.0 BY-SA版权

大数据同时被 2 个专栏收录

158 篇文章

订阅专栏

Spark

35 篇文章

订阅专栏

本文介绍使用SparkSQL读取JSON格式数据的方法，包括代码示例及如何处理JSON数据源的Schema信息变化。当JSON文件中添加新的属性值时，需要删除检验和文件并重新运行以确保数据正确读取。

SparkSql可以读取Json类型的文件

代码示例：

package cn.ysjh0014.SparkSql

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object SparkSqlJson {

  def main(args: Array[String]): Unit = {

    val session: SparkSession = SparkSession.builder().appName("JsonSource").master("local[4]").getOrCreate()

    import session.implicits._
    //读取json类型的数据
    val json: DataFrame = session.read.json("D:\\test")

    val result: Dataset[Row] = json.where($"age"<=15)

    result.show()

    session.stop()
  }
}

运行结果：

可以看出，读取Json类型的数据可以读取到Schema信息，是将Json数据中的属性值转化成的，但是当你在Json文件中的某一列中添加一个新的属性值时，就不能读取成功，会报错，这是因为Json数据与检验和不一致，将文件目录中的Json检验和文件删除，重新运行，就可以重新读取到该数据，并且新添加的属性值也会显示出来，Json数据源的Schema信息只能显示出少数的几种数据类型