sparkSQL基础之-----------2.0以前的sql创建

最新推荐文章于 2024-04-25 22:33:20 发布

原创最新推荐文章于 2024-04-25 22:33:20 发布 · 160 阅读

CC 4.0 BY-SA版权

本文详细介绍了使用Apache Spark创建DataFrame的两种方式：一是通过RDD和case class关联；二是通过创建schema信息。这两种方法都包括了从文件读取数据、数据处理、创建DataFrame、注册临时表及执行SQL查询等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我这里创建的方式就是两种

1.创建SparkConf和SparkContext

2.创建RDD

  val lines: RDD[String] = sc.textFile("C:\\Demo_data\\people.txt")

3.在object外部创建case class

case  class people(id:Long,name:String,age:Int,fv:Int)

4.对RDD的数据进行处理并与创建的case class进行关联

5.创建SQLContext

    val sqlContext=new SQLContext(sc)

6.导入隐士转换并进行DataFrame的创建（导入隐式转换的目的就是当前类没有所需要的但是它存在与别的类里面，可以导入隐式转换）

7.将创间的datafram进行临时表的创建

   personDF.registerTempTable("T_person")

8.利用sqlContext进行对临时表的查询

val result: DataFrame = sqlContext.sql("SELECT name,age,fv FROM T_person ORDER BY fv desc")

9.进行actio操作，并且关闭资源：

1.创建SparkConf和SparkContext

2.创建RDD

  val lines: RDD[String] = sc.textFile("C:\\Demo_data\\people.txt")

3.对RDD的数据进行处理并且设置RDD的类型为 RDD[Row]

4.创建SQLContext

    val sqlContext=new SQLContext(sc)

5.创建schame元数据信息类型格式

6.创建DataFream同时传入两个参数

    val pdf: DataFrame = sqlContext.createDataFrame(peosonRow,schame)

7.创建临时表：

    pdf.registerTempTable("t_people")

8.利用sqlContext进行对临时表的查询

val result: DataFrame = sqlContext.sql("SELECT name,age,fv FROM T_person ORDER BY fv desc")

9.进行actio操作，并且关闭资源：