读时模式
val path="/Volumes/Data/BigData_code/data/"
//读取json⽣成dataframe
val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.json")
df.printSchema()
读时模式是通过前几行的数据,来对各个列进行推断各个列的数据类型。优点是方便。但是,读时模式会造成精度损失。因为在前几行推断出是int类型,但是,实际是long类型
指定模式
方法1:使用StructType实现指定
val path="/Volumes/Data/BigData_code/data/"
//⾃定义schema模式
val mySchema = StructType(Array(
StructField("DEST_COUNTRY_NAME", StringType, true),
StructField("ORIGIN_COUNTRY_NAME", StringType, true),
StructField("count", LongType, false, Metadata.fromJson("{\"home\":\"world\"}")) ))
//⽣成DataFrame
val df = spark.read.format("json").schema(mySchema) //使⽤⾃定义的schema模式
.load(path &