spark sql 综合实例

本文是一篇关于Spark SQL的综合实例,通过将Oracle数据库的例子转化为Spark SQL操作,讲解了如何处理四张表(Teacher, Student, Score, Course)的数据,包括创建schema、注册表和时间处理等步骤。" 116492143,10457398,"Redis数据类型详解:String, List, Hash, Set与Sorted Set

该文主要展示的是spark sql 例子

(内容是找了份oracle的例子,翻译成spark sql的)

1、需要准备好四张表,既四个文本文件逗号分隔

2、为这四张表创建好schema,并注册成表

3、时间处理有小部分改动

准备的四张表

 

image.png

 

image.png

 

image.png

 

image.png

 

四张表中的数据

Teacher

884,zhagnxueyou,female,1980/2/10,Assistant professor,department of computer
856,liudehua,female,1980/12/10,professor,department of electronic engineering
825,liming,female,1980/1/10,advandced professor,department of computer
831,zhourunfa,female,1981/12/10,jonior professor,department of electronic engineering

Student

108,ceng hua,male,1977/9/1,95033
105,zhangsan,male,1975/10/22,95031
107,wangli,female,1976/1/8,95033
101,lili,male,1978/5/14,95033
109,wangfang,female,1979/5/10,95031
103,lijun,male,1974/5/21,95031

Score

103,3-245,86
105,3-245,75
109,3-245,68
103,3-105,92
105,3-105,88
109,3-105,76
101,3-105,64
107,3-105,91
108,3-105,78
101,6-166,85
107,6-166,79
108,6-166,81

Course

3-105,introduction to computer,825
3-245,the operating system,804
6-166,the digital circuit,856
9-888,higher math,831

maven

 <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>
       <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.1</version>
    </dependency>

例子代码,粘贴可用,注意注释掉不需要的地方即可


 
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types._
 
import scala.collection.mutable
import java.text.SimpleDateFormat
 
/**
  * 2017/05/26
  * CDP
  */
 
object SparkSqlExample1 {
 
   def main(args: Array[String]): Unit = {
 
    /** ***************************************************************************************************************
      * sparksession
      */
    val spark = SparkSession
      .builder()
      .master("local")
      .appName("test")
      .config("spark.sql.shuffle.partitions", "5")
      .getOrCreate()
 
    /** ***************************************************************************************************************
      * 表结构
      */
    val StudentSchema: StructType = StructType(mutable.ArraySeq(  //学生表
      StructField("Sno", StringType, nullable = false),           /
Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它提供了 SQL 和 DataFrame API 的支持,并且可以无缝地整合在 Spark 程序中。使用 Spark SQL,可以执行 SQL 查询,也可以通过 DataFrame API 在 Scala、Java、Python 或 R 语言中进行数据操作。 下面是一个简单的Spark SQL实例,展示了如何使用Spark SQL读取JSON格式的数据文件,并进行简单的查询操作: ```scala import org.apache.spark.sql.SparkSession // 创建SparkSession对象,这是Spark SQL的入口点 val spark = SparkSession.builder() .appName("Spark SQL Basic Example") .master("local[*]") // 本地运行,[*]表示使用所有可用的核心 .getOrCreate() // 加载一个JSON文件作为数据源,这里的路径需要根据实际文件位置来指定 val peopleDF = spark.read.json("路径/to/people.json") // 使用DataFrame API进行查询 peopleDF.select("name", "age").show() // 注册为一个临时表,使用SQL语法进行查询 peopleDF.createOrReplaceTempView("people") valSQL = "SELECT name FROM people WHERE age BETWEEN 13 AND 19" spark.sql(SQL).show() // 停止SparkSession spark.stop() ``` 在这个实例中,我们首先创建了一个SparkSession对象,它是一个面向用户的入口点来操作Spark SQL。然后,我们读取了一个名为`people.json`的文件,这个文件应该包含JSON格式的数据,并且假设它有`name`和`age`字段。接着,我们使用了DataFrame API 来展示`name`和`age`字段,并将数据注册为一个临时表,这样我们就可以使用SQL语句进行查询。最后,执行了一个SQL查询,并显示了结果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值