spark的DataFrame的schema模式：读时模式，指定模式

最新推荐文章于 2025-03-18 10:51:10 发布

qq_43633616

最新推荐文章于 2025-03-18 10:51:10 发布

阅读量972

点赞数

分类专栏： DataFrame 文章标签：大数据

本文链接：https://blog.youkuaiyun.com/qq_43633616/article/details/125546638

版权

该博客介绍了Spark中处理JSON数据的两种方式：读时模式和指定模式。读时模式依赖于数据前几行推断列类型，可能导致精度损失。而指定模式可以通过StructType或caseclass明确指定列数据类型，避免精度问题。示例代码展示了如何自定义schema并加载JSON数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读时模式

val path="/Volumes/Data/BigData_code/data/"

//读取json⽣成dataframe

val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.json")
df.printSchema()

读时模式是通过前几行的数据，来对各个列进行推断各个列的数据类型。优点是方便。但是，读时模式会造成精度损失。因为在前几行推断出是int类型，但是，实际是long类型

指定模式

方法1：使用StructType实现指定

val path="/Volumes/Data/BigData_code/data/"
//⾃定义schema模式    
val mySchema = StructType(Array(
      StructField("DEST_COUNTRY_NAME", StringType, true),                      
      StructField("ORIGIN_COUNTRY_NAME", StringType, true),
      StructField("count", LongType, false, Metadata.fromJson("{\"home\":\"world\"}"))    ))    
//⽣成DataFrame    
val df = spark.read.format("json").schema(mySchema) //使⽤⾃定义的schema模式
   .load(path &