在 Spark 中可以直接读取数据文件
但是读取到的数据的每一项数据是没有数据类型的
而且不能使用数据像使用数据表中的字段名那样使用数据
可以在读取数据的时候对读取到的数据进行设置转换
设置转换后使用数据可以像使用数据库表中的字段那样
通过字段名获取数据import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} /** * 演示SparkSQL读取各种数据源的数据,进行分析 */ object SchemaTsvSpark { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("SchemaTsvSpark") .master("local[2]") //设置sparkSQL中shuffle 时分区数 .config("spark.sql.shuffle.partitions",2) .getOrCreate() spark.sparkContext.setLogLevel("WARN") import spark.implicits._ //自定义Schema信息 val schema:StructType = StructType( Array( StructField("user_id",IntegerType,true), StructField("item_id",IntegerType,true), StructField("rating",DoubleType,true), StructField("timestamp",LongType,true)
【spark】spark sql 自定义schema
最新推荐文章于 2025-02-17 21:13:16 发布